# -*- coding: utf-8 -*-
import scrapy
from Kaoyan.items import KaoyanItem
class KaoyanbangSpider(scrapy.Spider):
name = "Kaoyanbang"
allowed_domains = ['kaoyan.com']
baseurl = 'http://download.kaoyan.com/list-'
linkuseurl = 'http://download.kaoyan.com'
offset = 1
pset = 1
start_urls = [baseurl+str(offset)+'p'+str(pset)]
handle_httpstatus_list = [404, 500]
def parse(self, response):
node_list = response.xpath('//table/tr/th/span/a')
for node in node_list:
item = KaoyanItem()
item['name'] = node.xpath('./text()').extract()[0].encode('utf - 8')
item['link'] = (self.linkuseurl + node.xpath('./@href').extract()[0]).encode('utf-8')
yield item
while self.offset < 1500:
while self.pset < 50:
self.pset = self.pset + 1
url = self.baseurl+str(self.offset)+'p'+str(self.pset)
y = scrapy.Request(url, callback=self.parse)
yield y
self.offset = self.offset + 5
在scrapy中如何实现在多个页面上进行爬取
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答
关注 不知道你这个问题是否已经解决, 如果还没有解决的话:- 给你找了一篇非常好的博客,你可以看看是否有帮助,链接:用scrapy爬取股票行情
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^解决 无用评论 打赏 举报
悬赏问题
- ¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗?
- ¥200 uniapp长期运行卡死问题解决
- ¥15 请教:如何用postman调用本地虚拟机区块链接上的合约?
- ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?
- ¥15 乘性高斯噪声在深度学习网络中的应用
- ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
- ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
- ¥15 C++ 头文件/宏冲突问题解决
- ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
- ¥50 安卓adb backup备份子用户应用数据失败