python，爬虫遇到重定向页面，如何获取动向后地址的response headers里的内容？

爬虫大致流程是这样的

图片说明

我想获取resul.jsf里Location的值

图片说明

下面是我写的代码，但是得不到结果，求大佬帮忙看一下。

我首先访问这个站点https://patentscope2.wipo.int/search/en/search.jsf ，从页面信息中获取ViewData的值，然后构建post data，把data加进去再次访问这个网站。

图片说明

import re
import requests
s = requests.Session()
r = s.get('https://patentscope2.wipo.int/search/en/search.jsf')
resp = r.text
# 获取ViewState值
viewstate = re.findall('ViewState:0.*value=\"([0-9\-:]*)\"',resp)[0]

# 构建data字典
searchfp = 'US20180094236'
data={'javax.faces.partial.ajax': 'true',
     'javax.faces.source': 'simpleSearchForm:commandSimpleFPSearch',
     'javax.faces.partial.execute': '@all',
     'simpleSearchForm:commandSimpleFPSearch': 'simpleSearchForm:commandSimpleFPSearch',
     'simpleSearchForm': 'simpleSearchForm',
     'simpleSearchForm:j_idt216_focus': '',
     'simpleSearchForm%3Aj_idt206_input': 'FP',
     'simpleSearchForm:fpSearch': searchfp,
     'javax.faces.ViewState': viewstate}
r = s.post('https://patentscope2.wipo.int/search/en/search.jsf',data = data)

然后得到一个result.jsf连接地址，再访问这个连接却得不到目标数据

图片说明

# 获取/result.jsf链接地址
vid = re.findall('_vid=([A-Z0-9\-]*)\"',r.text)[0]
re_url = 'https://patentscope2.wipo.int/search/en/result.jsf?_vid='+vid

# 访问/result.jsf后却没有去到正确的地方
r = s.get(re_url)
resp = r.text

print(r.headers)
print(r.status_code)
print(resp)
# 这里status_code时500，并且有页面内容，但不是目标页面

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
曲江涛 2023-05-17 12:34
关注
在Python中使用爬虫处理重定向页面时，您可以使用requests库来获取重定向后地址的响应头信息。requests库提供了一个allow_redirects参数，可以控制是否允许重定向。当设置allow_redirects=True时，requests库将自动处理重定向，并返回最终重定向后的响应。

以下是一个示例代码，演示如何获取重定向后地址的响应头内容：

import requests url = 'http://example.com/redirect-page' response = requests.get(url, allow_redirects=True) final_url = response.url response_headers = response.headers print('Final URL:', final_url) print('Response Headers:', response_headers)

在上述代码中，我们使用requests.get方法发送GET请求，并将allow_redirects参数设置为True，以允许重定向。然后，我们可以通过response.url获取最终重定向后的地址，通过response.headers获取响应头信息。

请注意，如果重定向过程涉及多个跳转，response.url将给出最终重定向的地址。而response.history属性将包含中间所有跳转的历史记录。

通过这种方式，您可以获取重定向后地址的响应头内容。您可以根据需要进一步处理响应头信息，例如提取特定的头字段值或进行其他操作。

注意：在实际使用中，请遵守网站的规则和法律法规，确保您的爬取行为符合合法和道德的要求。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
Python爬虫动态页面获取问题 python 爬虫
2021-12-08 16:12

回答 1 已采纳爬错了，是这个https://wax.alcor.exchange/api/markets
python，爬虫遇到重定向页面，如何获取动向后地址的response headers里的内容？
2023-05-17 12:34

曲江涛的博客在Python中使用爬虫处理重定向页面时，您可以使用requests库来获取重定向后地址的响应头信息。requests库提供了一个参数，可以控制是否允许重定向。当设置时，requests库将自动处理重定向，并返回最终重定向后的响应...
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫,我该怎么获取想要的内容（映射练习） css python 有问必答爬虫
2021-12-25 21:31

回答 1 已采纳因为题主将css中的空格全部替换掉了，但是正则中还有空格，并且正则分组用()，不是{}，而且svg中没有span标签，是text改下面就可以了 import re import requests fr
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
Python爬虫后获取重定向url的两种方法
2020-05-21 15:24

lemon_tree1002的博客方法（一） # 获得重定向url from urllib import request # https://zhidao.baidu.com/question/681501874175782812.html url = "https://www.baidu.com/link?...
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python 爬虫正则表达式打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
python爬虫post后重定向_Python爬虫后获取重定向url的两种方法
2021-01-29 23:58

白汐牙的博客 Python爬虫后获取重定向url的两种方法,爬虫,重定向,方法,两种,都是Python爬虫后获取重定向url的两种方法易采站长站，站长之家为您整理了Python爬虫后获取重定向url的两种方法的相关内容。下面给大家分享Python爬虫后...
python爬虫无有效内容 python 爬虫
2023-02-20 09:04

回答 3 已采纳有用请采纳get()返回的resq你得看看encoding是不是UTF-8的编码，如果不是得重新设置。
Python爬虫如何获取重定向后的url
2019-03-18 19:11

JiaLiangLau的博客在Python爬虫中会遇到url被重定向的情况，比如我点击https://www.test.com/uiehwuhuhgrehgureg.htm跳转到另一个页面，另一个页面的url会变成https://www.test.com/test.htm 使用下面代码可以获取到重定向后的url ...
post获取重定向的链接 python_Python爬虫后获取重定向url的两种方法
2021-01-28 14:28

宛在的博客下面给大家分享Python爬虫后获取重定向url的两种方法，具体内容如下所示；方法(一)# 获得重定向urlfrom urllib import request# ...
Python爬虫遇到重定向URL问题时如何解决？
2023-11-29 16:11

小白学大数据的博客 重定向是指当用户请求一个URL...在Python爬虫开发中，处理重定向URL问题是非常的。我们使用可以请求库来处理重定向，通过查看重定向后的重要URL和重定向历史来了解重定向的情况，从而确保爬虫能够正确获取所需的数据。
python重定向cookie_python urllib2 重定向时获取cookie
2020-11-29 09:35

weixin_39556811的博客最近用python写一个简单的爬虫，在模拟网站登录时遇到问题，就是登录后紧跟着302重定向，这时候cookie获取没做好，就会登录失败。网上找了很多文章，可能是因为python版本不同之类的原因吧，很多方法试了都没用。...
python重定向反爬虫_python爬虫重定向次数过多问题
2020-12-06 01:04

weixin_40007175的博客错误提示如下：raise TooManyRedirects('Exceeded %s redirects.' % self.max_redirects, response=resp)requests.exceptions.TooManyRedirects: Exceeded 30 redirects.原来程序的的获取是通过一下程序来访问url的...
python模拟登陆遇到重定向_Python爬虫模拟登录失败，重定向到登录页面解决方法。...
2021-02-04 04:50

樱花霁的博客今天尝试模拟登录一个网站，由于要爬的页面必须登录才能访问，所以我用requests.Session()来保持Cookie，再访问要爬的页面。但是这个爬虫有时模拟登录成功，有时失败，很奇怪。测试是否登录成功的代码片段如下：...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥15 绘制多分类任务的roc曲线时只画出了一类的roc，其它的auc显示为nan
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？