Scrapy爬虫问题

class LiepinspiderSpider(scrapy.Spider):
name = 'liepinspider'
allowed_domains = ['www.liepin.com']
start_urls = ['http://www.liepin.com/']
#要抓取的最大页数
max_page = 20
# dqs = "010" 是北京 20是上海 050020是广州 070020是杭州 170020是武汉
out_url = 'https://www.liepin.com/zhaopin/?ckid=2d4732e20cffdcd9&fromSearchBtn=2&init=-1&flushckid=1&dqs={dqs}&flushckid=1&key={key}&imscid=R000000058&headckid=2d4732e20cffdcd9&d_pageSize=40&siTag=I-7rQ0e90mv8a37po7dV3Q%7EfA9rXquZc5IkJpXC-Ycixw&d_headId=6857362076fa97aa53548faedae4487b&d_ckId=6857362076fa97aa53548faedae4487b&d_sfrom=search_fp_bar&d_curPage=0'
next_url_base = 'https://www.liepin.com/zhaopin/?ckid=f2d1b254babfd641&fromSearchBtn=2&init=-1&flushckid=1&dqs={dqs}&degradeFlag=0&key={key}&imscid=R000000058&headckid=2d4732e20cffdcd9&d_pageSize=40&siTag=I-7rQ0e90mv8a37po7dV3Q%7EF5FSJAXvyHmQyODXqGxdVw&d_headId=6857362076fa97aa53548faedae4487b&d_ckId=0818b2c9abf73593582b6a90e780804f&d_sfrom=search_fp_bar&d_curPage=0&curPage={page}'
def start_requests(self):
yield Request(url=self.out_url.format(key="python", dqs="010", ),
callback=self.out_html_parse)
def out_html_parse(self,response):
#解析外部网页，生成各个工作的工作链接
if response.status ==200:
job_urls = response.xpath('//div[@class="sojob-result "]/ul//a/@href').extract()
for url in job_urls:
if re.search((r"(.*shtml)"),url): #有的网页内容不是工作链接，用正则删去
if re.search((r"(.*shtml)"),url).group(1).startswith("https"):
job_url = re.search((r"(.*shtml)"),url).group(1)
else:
job_url = "https://www.liepin.com"+ url
yield Request(url = job_url , callback= self.job_url_parse)
for page in range(1, self.max_page):
yield Request(url=self.next_url_base.format(key="python", dqs="010", page=page),
callback=self.out_html_parse)
def job_url_parse(self, response):
解析页面的就先不写了
现在的问题是抓取时候只能抓取70-90个数据就结束了进程，所以现在想是不是callback遇到了问题，希望各位大神帮忙

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 17:32
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章：scrapy 异常处理也许有你想要的答案，你可以看看

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬虫不自动翻页问题爬虫
2021-11-14 09:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
scrapy爬虫无法翻页 python 有问必答
2021-05-06 08:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
利用scrapy框架进行分布式爬虫
2019-12-04 21:40

scrapy提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，是一个为爬取网站数据、提取结构性数据而设计的应用程序框架，它可以应用在广泛领域
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 19:41

回答 1 已采纳库安装失败了
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
python爬虫学习笔记-scrapy框架(1)
2023-01-29 12:24

python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python ...
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 23:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
Python Scrapy 爬虫框架demo
2018-12-04 14:47

Python Scrapy 爬虫框架整个学习demo,包括后端数据库等逻辑的一些代码
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 19:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
Python 后端爬虫Scrapy 框架使用
2018-12-04 14:41

cx羽的博客 Python 后端爬虫Scrapy 框架使用：
【网络爬虫与信息提取】Scrapy爬虫框架入门
2021-07-05 22:56

Ayakanoinu的博客 scrapy爬虫框架
没有解决我的问题, 去提问

悬赏问题

¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题

Scrapy爬虫问题

1条回答 默认 最新

悬赏问题

1条回答默认最新