利用scrapy爬取分页的附件链接并下载，为什么设置爬取一页，却把之后的页面的数据也下载了

def init(self):
super(Shouxian_zfcg,self).__init__()
self.start_urls = [
'http://sxztb.shouxian.gov.cn/SXztb/jyxm/003002/003002004/'
]
##初始化page
self.page=1
self.file_download = '/home/lenovo/attachments/zhengfucaigou/anhui/huainan/shouxian_cg/'
self.Redis = Url_Into_Redis(self.name)
self.r_instance = self.Redis.redis_instance()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 17:38
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
文章：利用scrapy框架爬取某招聘网站，并对数据进行简单分析中也许有你想要的答案，请看下吧

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
python模块之Scrapy爬虫框架
2023-10-10 00:00

局外人LZ的博客 Scrapy 是一个用于爬取网站数据的强大的开源 Python 框架。它提供了一个高级的抓取和数据提取工具集，使您能够快速、灵活地构建和扩展网络爬虫。强大的功能：Scrapy 提供了一套完整的工具和功能，包括请求调度、数据...
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
Python爬取链家北京租房信息
2021-12-22 21:31

m0_65258661的博客刚学习了python，中途遇到很多问题，查了很多资料，最关键的就是要善于调试，div信息一定不要找错，下面就是我爬取租房信息的代码和运行结果：链家的房租网站两个导入的包 1.requests 用来过去网页内容 2....
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 14:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
前程无忧网址数据练习抓取，为什么会返回空值(语言-python) python 有问必答爬虫
2021-12-05 21:39

回答 1 已采纳你输出下str_data 看看源代码中有你需要爬取的内容吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。
[Scrapy教学9]一定要懂的Scrapy框架结合Gmail寄送爬取资料附件秘诀
2021-03-10 12:24

mikes zhang的博客在Python网页爬虫搜集资料的过程中，除了能够将资料存入资料库或汇入成档案外，另一个最常应用的场景就是“消息通知”，也就是在利用Python网页爬虫搜集到所需的资料后，透过讯息通知的管道来推送资料结果。...
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
python 学习目录
2021-12-28 11:20

jialan75的博客范例01-01：在Windows系统中下载并安装Python 范例01-02：在Mac OS系统中下载并安装Python 范例01-03：在Linux系统中下载并安装Python 1.2 安装开发工具范例01-04：使用Python自带工具IDLE 范例01-05：安装Pycharm ...
“Python小屋”1300篇历史文章分类速查表
2022-09-02 20:57

dongfuguo的博客快速查找历史文章的方法：1）单击本文右上角的按钮“...”，然后在弹出的窗口中选择“搜索页面内容”，然后输入要找的关键字即可。董付国老师系列教材（转发本公众号文章超过60条（每天不超过10条）到朋友圈，然后...
没有解决我的问题, 去提问

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

利用scrapy爬取分页的附件链接并下载，为什么设置爬取一页，却把之后的页面的数据也下载了

1条回答 默认 最新

悬赏问题

1条回答默认最新