用scrapy.Request怎么抓取JS动态页面

如题对于一个JS动态页面，如何用scrapy.Request函数调用下一个页面。原因是需要用parse函数抓取每个页面的链接，并进行页面的跳转。

    def parse(self, response):
        item=JobHuntingItem()
        next_page_href = response.css('li[class="next"]>a::attr(href)').extract()
        last_page_href = response.css('li[class="last"]>a::attr(href)').extract()
        if next_page_href != last_page_href:
            self.xidian_next_page = 'https://job.xidian.edu.cn' + next_page_href[0]
        else:
            self.xidian_next_page = ''
        c_page_url_list = response.css('ul[class="infoList"]>li:nth-child(1)>a')
        for job in c_page_url_list:
            driver = JobHuntingDownloaderMiddleware.get_XIDIAN_driver()
            driver.get('https://job.xidian.edu.cn' + job.css('a::attr(href)').extract()[0])
            time.sleep(4)
            item['job_title'] = [driver.find_element('css selector', 'div[class="info-left"]>div>h5').text]
            date_text = driver.find_element('css selector', 'div[class="share"]>ul>li:nth-child(1)').text
            date_text = date_text[date_text.find('：') + 1:]
            if datetime.strptime(date_text,'%Y-%m-%d %H:%M')<datetime.strptime('2021-12-03 00:00','%Y-%m-%d '):
                self.xidian_next_page = ''
                break
            item['job_date'] = [date_text]
            views_text = driver.find_element('css selector', 'div[class="share"]>ul>li:nth-child(2)').text
            item['job_views'] = [views_text[views_text.find('：') + 1:]]
            yield item
        if self.xidian_next_page != '':
            yield scrapy.Request(self.xidian_next_page, callback=self.parse)

在爬取完一个页面后在下一个循环仍然爬取当前页面，没有进入下一页

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
杉杉锅锅 2022-01-07 09:43
关注
self.xidian_next_page确定有值吗

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

SCRAPY运行报错， [scrapy.core.engine] INFO: Spider closed (finished)！ python
2021-07-26 07:56

回答 2 已采纳这个就是正常爬完了的日志信息吧，没啥问题啊
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 13:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 03:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
scrapy.Request中callback、meta的使用
2023-02-13 14:47

萌面女汉_zp的博客 2、scrapy中meta的使用
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-05 16:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 08:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 10:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy.Request（）post方式发送json数据
2021-12-17 02:19

始識的博客再scrapy 中可以使用formdata 发送post请求但是也仅限于formdata 方式的数据但是如果post请求要求传递json 单纯使用下列方式是提取不出来出数据的 def start_requests(self): for i in range(1000): ...
scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 07:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 03:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 11:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
python requests 400_scrapy.Request请求地址返回400,但是用单独request模块请求同样的url返回正常...
2020-12-05 09:13

weixin_39923137的博客发现返回400错误，我检查了我不是被封ip，把请求链接直接copy到浏览器上，是可以正常显示结果的，单独用python的requests模块post请求同样的url地址，获得的是正常的返回，我就不明白了，是我scrapy.Request的里面...
python的request返回400_python - scrapy.Request请求地址返回400,但是用单独request模块请求同样的url返回正常...
2021-02-03 23:30

漫步西提的博客发现返回400错误，我检查了我不是被封ip，把请求链接直接copy到浏览器上，是可以正常显示结果的，单独用python的requests模块post请求同样的url地址，获得的是正常的返回，我就不明白了，是我scrapy.Request的里面...
scrapy.Request创建新的请求
2020-04-15 13:33

「已注销」的博客 scrapy.Request创建新的请求 ...
python 爬取 js渲染_scrapy 爬取 javascript 动态渲染页面
2020-11-23 13:50

weixin_39616045的博客所以就决定用python 的 scrapy 框架写个爬虫,去下载这些MP3。一开始以为简单，直到完成下载，竟然花了我一下午的时间。最大的难题就是页面的数据是通过javascript 脚本动态渲染的。百度上大部分方法都是通过splash ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月3日

悬赏问题

¥15 代写uni代码，app唤醒
¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：

用scrapy.Request怎么抓取JS动态页面

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新