scrapy request发生重定向问题

from scrapy.spider import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request

class Spider(CrawlSpider):
name = 'wordSpider'
NUM = 14220485
start_urls = [
"http://baike.baidu.com/view/1.htm"
]
fi = open('e:/word.txt', 'w')
cnt = 2

def parse(self,response):
    selector = Selector(response)
    word = selector.xpath('body/div[@class="body-wrapper"]/div[@class="content-wrapper"]/div[@class="content"]/div[@class="main-content"]/dl/dd/h1/text()').extract_first()
    #word = selector.xpath('body/div[@id="J-lemma"]/div[@class="body-wrapper"]/div[@class="card-part"]/span[@class="lemma-title"]/text()').extract()
    self.fi.write(word + '\t' + 'n')
    if self.cnt <= self.NUM:
        wurl = "http://baike.baidu.com/view/%s.htm" % self.cnt
        self.cnt += 1
        yield Request(url=wurl, meta={}, callback=self.parse)

这是我的爬虫源码，如何阻止301/302重定向，要抓取的是百度所有词条，但是总会发生重定向导致无法获得想要的网页

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-04-04 01:35
关注
对于重定向。判断返回值。然后再请求真实地址

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

scrapy安装失败的问题 python 有问必答
2021-04-17 13:20

回答 4 已采纳 can't find Rust compiler，找不到Rust编译器
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 08:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
scrapy运行发生错误，如何解决？ python 爬虫
2022-07-28 12:29

回答 1 已采纳重新安装一下lxml库呢https://blog.csdn.net/weixin_43965374/article/details/99641332
Python Scrapy 登录重定向问题及其解决方法
2024-11-12 08:01

qq^^614136809的博客当尝试使用 Scrapy 来抓取一个网站时，可能会遇到登录重定向的问题，导致无法成功登录并抓取数据。这是一个常见的 Scrapy 问题，通常是由于没有正确处理登录过程中的重定向而导致的。
关于scrapy 无法启动的问题 python
2022-08-22 13:07

回答 2 已采纳这是在两个不同py文件，要使用CnblogspiderItem需要导入另一个文件在Cnblog...py文件开头导入另一个文件import Item（反正就是另一个文件的文件名，图片模糊有些看不清）
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 02:32

回答 1 已采纳 self.xidian_next_page确定有值吗
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-28 23:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
Scrapy解决302重定向问题
2020-05-24 06:00

weixin_42320181的博客在使用scrapy爬取网站数据的时候遇到了302重定向问题，可以在Request中添加meta参数。 yield scrapy.Request(url, callback=self.parse, meta={'dont_redirect': True, 'handle_httpstatus_list': [302]}) 'dont_...
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 03:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
scrapy爬虫不自动翻页问题爬虫
2021-11-14 01:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-15 17:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
Scrapy爬虫遇见重定向301/302问题解决方法
2022-06-30 07:19

张三是个好人的博客在scrapy爬取数据时，遇到重定向301/302，特别是爬取一个下载链接时，他会直接重定向并开始下载，在下载之后才会返回爬取的链接，这时候就需要中止重定以下302都可以换成301，是一样的。
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-05 16:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
scrapy 解决302重定向问题
2019-01-08 11:57

迷途无归的博客单独yield请求时禁用重定向 yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.pars...
Scrapy爬虫中处理重定向(301\302)问题
2024-04-24 08:55

S4ke的博客自定义下载中间件可以让我们在遇到重定向时重新发起请求。# 当状态码为301或302时，重新发起请求# 其他状态码直接返回响应。
没有解决我的问题, 去提问

悬赏问题

¥15 okhttp分片上传文件，到最后一个分片提示：Invalid Content-Length
¥15 有关汽车的MC9S12XS128单片机实验
¥15 求c语言动态链表相关课程有偿，或能将这块知识点讲明白
¥15 FLKT界面刷新异常
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥50 单细胞测序拟时序分析
¥50 运行springboot项目报错
¥15 FTP 站点对站点传输失败
¥15 宝塔面板一键迁移使用不了
¥15 求一个按键录像存储到内存卡的ESP32CAM代码

scrapy request发生重定向问题

1条回答 默认 最新

悬赏问题

1条回答默认最新