scrapy爬虫翻页操作，python+scrapy

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1617330627112&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex=1&pageSize=10&language=zh-cn&area=cn

在scrapy中怎么用代码对这个链接进行翻页操作，爬取数据

怎么样对红线部分进行翻页操作，或者是指定页数的爬取，多页爬取

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

白驹_过隙算法领域新星创作者 2021-04-03 09:15

关注

# 导入所需库
import requests

class Jdcomment_spider(object):

    # 请求头
    headers = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 89.0.4389.90Safari / 537.36'
    #请求的客户端信息
    }

    def __init__(self, file_name='jd_commet'):
        # 实例化类的时候运行初始化函数
        # 打开文件
        self.fp = open(f'./{file_name}.txt', 'w', encoding='utf-8')

        print(f'正在打开文件{file_name}.txt文件!')


    def parse_one_page(self, url):
        # 指定url
        #url='https://club.jd.com/comment/productPageComments.action?productId=100017543968&score=0&sortType=6&page=1&pageSize=10&isShadowSku=100016034372&rid=0&fold=1'
        # print(url)

        # 发起请求
        response = requests.get(url, headers=self.headers)
        # 获取响应
        js_data = response.json()

        # 提取评论列表
        comments_list = js_data['comments']

        for comment in comments_list:
            # 商品id
            goods_id = comment.get('id')
            # 用户昵称
            nickname = comment.get('nickname')
            # 评分
            score = comment.get('score')
            # 商品尺寸
            productSize = comment.get('productSize')
            # 商品颜色
            productColor = comment.get('productColor')
            # 评论时间
            creationTime = comment.get('creationTime')
            # 评论内容
            content = comment.get('content')
            content = ' '.join(content.split('\n'))  # 处理换行符

            print(content)

            # 循环写出数据
            self.fp.write(f'{goods_id},{nickname},{score},{productSize},{productColor},{creationTime},{content}\n')


    def parse_max_page(self):
        for page_num in range(50):  # 抓包获得最大页数
            # 指定通用的url模板
            new_url = f'https://club.jd.com/comment/productPageComments.action?productId=100017543968&score=0&sortType=6&page={page_num}&pageSize=10&isShadowSku=100016034372&rid=0&fold=1'

            print(f'正在获取第{page_num}页')
            # 调用函数
            self.parse_one_page(url=new_url)


    def close_files(self):
        self.fp.close()
        print('爬虫结束，关闭文件！')


if __name__ == '__main__':
    # 创建实例对象
    jd_spider = Jdcomment_spider()
    # 开始爬虫
    jd_spider.parse_max_page()
    # 关闭文件
    jd_spider.close_files()

设置一个函数，令page={page_num},再循环page_num即可，这是我爬取的例子，希望对你有帮助

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

scrapy爬虫无法翻页 python 有问必答
2021-05-06 00:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-13 16:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 06:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip
2023-12-30 02:35

毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫...
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-28 23:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
python爬虫scrapy python 有问必答
2021-07-22 02:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
scrapy如何手动停止爬虫？ python
2021-05-10 01:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
基于Scrapy+Redis+Python + Scrapy + redis的分布式爬虫设计源码+项目说明.zip
2024-01-07 03:03

1、基于Scrapy+Redis+Python + Scrapy + redis的分布式爬虫设计源码+项目说明.zip 2、该资源包括项目的全部源码，下载可以直接使用！ 3、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设...
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 11:41

回答 1 已采纳库安装失败了
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 06:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-15 17:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
爬虫---scrapy爬虫框架（详细+实战）
2022-08-01 08:50

霄卓io.的博客 Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域Scrapy常应用在包括数据挖掘，信息处理或存储...通常我们可以很简单的通过Scrapy框架实现一个爬虫，抓取指定网站的内容或图片。...
毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis
2023-06-08 13:34

程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过...
pythonscrapy爬虫实例Python爬虫Scrapy实例
2024-02-04 00:49

### Python爬虫Scrapy实例详解 ...通过以上步骤，你已经成功创建了一个基本的Scrapy爬虫项目，并了解了各个文件的作用及其配置方法。接下来，你可以根据实际需求进一步定制爬虫逻辑，实现更复杂的爬虫功能。
计算机毕业设计：Python实现的分布式爬虫设计(Python+Scrapy+Redis)，保证可靠运行，赠计算机答辩PPT模板
2024-03-09 07:41

《计算机毕业设计：Python实现的分布式爬虫设计（Python+Scrapy+Redis）》是一项综合性强、实用性高的计算机学习资源，特别适用于本科课程设计、毕业设计以及Python学习等多个领域。该资源通过结合Python、Scrapy...
没有解决我的问题, 去提问

悬赏问题

¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：
¥15 潜在扩散模型的Unet特征提取

码龄粉丝数原力等级 --

scrapy爬虫翻页操作，python+scrapy

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

scrapy爬虫翻页操作，python+scrapy

3条回答 默认 最新

悬赏问题

3条回答默认最新