PZWJAY 2017-04-04 01:33 采纳率: 25%
浏览 7728

scrapy request发生重定向问题

from scrapy.spider import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request

class Spider(CrawlSpider):
name = 'wordSpider'
NUM = 14220485
start_urls = [
"http://baike.baidu.com/view/1.htm"
]
fi = open('e:/word.txt', 'w')
cnt = 2

def parse(self,response):
    selector = Selector(response)
    word = selector.xpath('body/div[@class="body-wrapper"]/div[@class="content-wrapper"]/div[@class="content"]/div[@class="main-content"]/dl/dd/h1/text()').extract_first()
    #word = selector.xpath('body/div[@id="J-lemma"]/div[@class="body-wrapper"]/div[@class="card-part"]/span[@class="lemma-title"]/text()').extract()
    self.fi.write(word + '\t' + 'n')
    if self.cnt <= self.NUM:
        wurl = "http://baike.baidu.com/view/%s.htm" % self.cnt
        self.cnt += 1
        yield Request(url=wurl, meta={}, callback=self.parse)

这是我的爬虫源码,如何阻止301/302重定向,要抓取的是百度所有词条,但是总会发生重定向导致无法获得想要的网页

  • 写回答

1条回答 默认 最新

  • oyljerry 2017-04-04 01:35
    关注

    对于重定向。判断返回值。然后再请求真实地址

    评论
    编辑
    预览

    报告相同问题?

    悬赏问题

    • ¥15 okhttp分片上传文件,到最后一个分片提示:Invalid Content-Length
    • ¥15 有关汽车的MC9S12XS128单片机实验
    • ¥15 求c语言动态链表相关课程有偿,或能将这块知识点讲明白
    • ¥15 FLKT界面刷新异常
    • ¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
    • ¥50 单细胞测序拟时序分析
    • ¥50 运行springboot项目报错
    • ¥15 FTP 站点对站点传输失败
    • ¥15 宝塔面板一键迁移使用不了
    • ¥15 求一个按键录像存储到内存卡的ESP32CAM代码
    手机看
    程序员都在用的中文IT技术交流社区

    程序员都在用的中文IT技术交流社区

    专业的中文 IT 技术社区,与千万技术人共成长

    专业的中文 IT 技术社区,与千万技术人共成长

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    客服 返回
    顶部