scrapy框架+formdata+ajax爬取及翻页问题

问题描述：使用scrapy框架爬取ajax网页，以中国地震台网——历史查询为例，我想爬取某个时间段内所有的数据，但是我的代码并不能实现，找了一些相关问题参考，最终代码如下，未能实现，请问大哥大佬们能支个招吗。。。（scrapy框架，已测试过代码其他配置等没有问题）

#spider文件：

# -*- coding: utf-8 -*-
import scrapy
from EarthquakeScrapy.items import EarthquakescrapyItem


class TestScrapy(scrapy.Spider):
    name = 'test'  # 爬虫的名字
    allowed_domains = ['ceic.ac.cn/search']  
    start_urls = 'http://www.ceic.ac.cn/ajax/search?page=&&start=&&end=&&jingdu1=&&jingdu2=&&weidu1=&&weidu2=&&height1=&&height2=&&zhenji1=&&zhenji2='
    # 爬取页码循环次数，一共57页
    all_page = 3

    def start_requests(self):
        # 遍历各页
        for i in range(1, self.all_page + 1):  # 从前端获取的页面[1,57+1），循环1到57页
            yield scrapy.FormRequest(self.start_urls,
                                     formdata={'page': 'i', 'start': '2019-03-25','end': '2020-03-25',
                                               'jingdu1': '', 'jingdu2': '','weidu1': '', 'weidu2': '',
                                               'height1': '','height2': '', 'zhenji1': '', 'zhenji2': '','callback': ''},
                                     callback=self.parse,
                                     dont_filter=True)  # 请求对应的内容

    def parse(self, response):
        result = eval(response.body.decode('utf-8'))
        records = result['shuju']
        item = EarthquakescrapyItem()
        print("**")#测试用
        for record in records:
            item['level'] = record['M']
            item['time'] = record['O_TIME']
            item['longitude'] = record['EPI_LON']
            item['latitude'] = record['EPI_LAT']
            item['depth'] = record['EPI_DEPTH']
            item['address'] = record['LOCATION_C']
            print(record['M'])#测试爬取数据情况
            # yield item

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-03-25 20:01
关注
def parse(self, response):
result = eval(response.body.decode('utf-8'))

兄弟，你打印一下result看看是什么东西

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy爬虫无法翻页 python 有问必答
2021-05-06 08:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_splash组件的使用 scrapy的日志信息与配置 scrapyd部署scrapy...
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
关于Scrapy 框架运行不出结果的问题，好像没有报错 python 正则表达式
2020-05-09 18:12

回答 3 已采纳如图：如果你完整的看完scrapy的日志（第一张图），根本原因：你设置了robotstxt服从为真，直接原因：目标网站的robot限制了你的访问
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
scrapy爬虫框架
2024-03-23 19:40

昵称只能一个月修改一次呀的博客 scrapy爬虫框架、分布式爬虫
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
scrapy框架问题报错？ python
2020-03-22 13:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
Python - 爬虫之Scrapy
2021-07-13 19:23

GitLqr的博客 Scrapy 是一个 python 编写的，被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。作用：少量的代码，就能够快速的抓取官方文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/ 补充：Scrapy 使用...
scrapy框架,selector python 爬虫
2022-09-12 18:54

回答 2 已采纳结果是什么
Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用
2019-12-30 08:28

ZhiHuaWei的博客 Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用综述Request对象scrapy.Request()函数讲解：Response对象发送POST请求模拟登陆模拟登陆人人网其他博文链接综述本系列文档用于对Python爬虫技术的...
爬虫提高之scrapy框架
2019-09-23 22:12

Di.via的博客 scrapy框架的学习介绍前面我们学习了基础的爬虫实现方法和selenium以及mongodb数据库，那么接下来会我们学习一个上场率非常高的爬虫框架：scrapy 内容 scrapy的基础概念和工作流程 scrapy入门使用 scrapy的深入 ...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

scrapy框架+formdata+ajax爬取及翻页问题

1条回答 默认 最新

悬赏问题

1条回答默认最新