scrapy框架技术：构造start_urls

#start_urls = ['http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-%7B%7D'.format(i) for i in
range(1, 26)]
#以下是数据解析
def parse(self, response):
li_list = response.xpath('//ul[@class="bang_list clearfix bang_list_mode"]/li')
for li in li_list:
booknum = '2018第' + li.xpath('./div[1]/text()').extract_first()
bookname = li.xpath('./div[3]/a/text()').extract_first()
author = li.xpath('./div[5]/a/text()').extract_first()

问题：我想问这个start_url的2018这里，增加2019，2020和2021，然后booknum这里对应2019第、2020第、2021第，怎么构造呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hyh123a 全栈领域新星创作者 2022-05-15 07:44
关注
需求
我想问这个start_url的2018这里，增加2019，2020和2021，然后booknum这里对应2019第、2020第、2021第，怎么构造呢？

解决方法
1、start_urls这里自己手动添加对应的2019、2020、2021urls值，或者加个循环来添加
2、修改这两行代码

for li in li_list: booknum = '2018第' + li.xpath('./div[1]/text()').extract_first()

改为：

i = 0 for li in li_list: booknum = str(2018+i)+ '第' + li.xpath('./div[1]/text()').extract_first() i + =1

如有问题及时沟通
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Scrapy框架（爬虫中间件）：TypeError: __init__() missing 5 required positional arguments python 中间件爬虫
2022-01-29 11:40

回答 2 已采纳在init函数内部引入settings然后依次赋值就解决了
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
scrapy中start_requests指定回调函数为何没有调用 python 有问必答爬虫
2022-01-20 23:02

回答 2 已采纳改成这样试试 yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='
Scrapy 一个强大的基于Python的开源爬虫框架 Scrapy tutorial: Learning web scraping using Python
2023-08-10 09:09

禅与计算机程序设计艺术的博客本教程旨在带领大家了解如何使用Scrapy框架来进行网页数据采集。Scrapy框架支持多种编程语言，包括Python，C++，Java，Ruby和PHP，并提供了完整的官方API文档。它提供了强大的管道系统，允许用户自定义数据处理流程...
scrapy如何传入start_requests python 爬虫
2021-12-28 15:45

回答 1 已采纳获取到翻页的url之后调用start_request不就传了，求采纳，谢谢🙈🙈🙈
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 11:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
利用Scrapy框架爬虫时出现报错ModuleNotFoundError: No module named 'scrapytest.NewsItems'？ python
2019-11-15 23:52

回答 2 已采纳 import scrapy #引入容器 from scrapytest.NewsItems import NewsItem 改为 from scrapytest.items import Ne
python scrapy框架爬虫_想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？...
2020-11-21 03:28

weixin_39988197的博客在这个言必称“大数据”“人工智能”的时代，数据分析与挖掘（比如爬虫）可以说互联网从业者必备的技能。想要用Python做爬虫，使用scrapy框架是很好的选择。这次我拉来了我们岂安科技喜欢（瞎）折腾的研发工程师...
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
运行scrapy项目报错：ImportError:DLL load failed：操作系统无法运行
2018-01-16 07:50

回答 3 已采纳问题我已解决。解决方案请看：[http://blog.csdn.net/mmayanshuo/article/details/79084231](http://blog.csdn.net/mmayan
scrapy框架,selector python 爬虫
2022-09-12 18:54

回答 2 已采纳结果是什么
爬虫Scrapy框架初体验
2021-03-18 17:18

梁同学Coding的博客目录结构：|写在前面：|依葫芦画瓢：| |安装：||概述：||创建一个scrapy项目||第一个scrapy蜘蛛| ...
安装scrapy后，pip list显示有scrapy，但 cmd里输入scrapy出现ValueError:builtins.type size changed,may python
2022-07-05 22:26

回答 3 已采纳解决方法先测试下是否安装了该模块 python3 -m pip install scrapy # 安装 python3 -m scrapy version # 测试如有问题及时沟通
Python爬虫框架Scrapy，更高效地抓取数据
2023-05-14 18:13

格林希尔的博客 Scrapy是一个用Python编写的开源网络爬虫框架。
scrapy框架的解析
2019-01-28 21:03

weixin_30700099的博客什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承了各种功能(高性能异步下载, 队列,分布式,解析,持久化存储等)具有很强的项目模板,对于...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月14日

悬赏问题

¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）

scrapy框架技术：构造start_urls

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新