爬虫基础访问页面失败无效标头

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

import urllib.request

url = 'https://weibo.cn/6543875713/info'

headers = {
# ':authority':' weibo.cn',
# ':method':' GET',
# ':path':' /6543875713/info',
# ':scheme':' https',
'accept':' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
#'accept-encoding':' gzip, deflate, br',
'accept-language':' zh-CN,zh;q=0.9',
'cache-control':' max-age=0',
'cookie':' _T_WM=97537cddb6b9372bb7cc7f52fdc76b9b; SCF=AqL1oCWI4guZx3smWyY8gt4RjJJway9lF75jEzSQn3n7WW_HwaQF1LEQWnI-vFIkbE_wfJJfC4fF0_s4IWrNvIw.; SUB=_2A25P0G-DDeRhGeBL71EZ9yvLyj-IHXVtO3HLrDV6PUJbkdCOLWmskW1NRxsmyRw2gXUTJs0XRzgTW-sQkWRgwqGV; SSOLoginState=1658068947',
'referer: https':'//weibo.cn/',
'upgrade-insecure-requests':' 1',
'user-agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}

usl = urllib.request.Request(url=url,headers=headers)

we = urllib.request.urlopen(usl)
bc = we.read().decode('utf-8')


with open('weibo.html','w',encoding='gb2312')as fp:
    fp.write(bc)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
亖夕 Python领域新星创作者 2022-07-17 23:43
关注
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

爬虫基础访问页面失败无效标头 python
2022-07-17 23:03

回答 4 已采纳
Python爬虫动态页面获取问题 python 爬虫
2021-12-08 16:12

回答 1 已采纳爬错了，是这个https://wax.alcor.exchange/api/markets
Oracle 数据库启动失败数据文件标头发生介质损坏 oracle 数据库
2021-12-13 16:49

回答 1 已采纳最后没办法了，只能导出所有用户数据，重装系统再把数据导入了。
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
在有标头的情况下，服务器是怎么区分浏览器和爬虫的？ python 有问必答爬虫
2021-11-02 20:35

回答 1 已采纳还有cookie，比如网站使用了session，会生成对应的cookie发送到客户端，如asp.net的ASP.NET_SessionId，php和jsp也有对应的cookie。要保持是同一个请求，
请求标头显示是预配标头 ajax html5 javascript
2023-03-24 22:39

回答 1 已采纳 "预配标头"指的是请求发送到服务器时所带的请求头（Request Headers），通常包含一些需要被服务器端检查并根据结果进行处理的信息，如Cookie、Token等等。如果请求标头显示为“预配标
跨域请求被阻止，标头访问控制允许源丢失 reactjs typescript
2018-07-10 15:52

回答 1 已采纳 Thanks to Slotheroo for his suggestion to use nginx and that was the only possible way i could ove
爬虫数据采集基础
2022-06-28 23:20

m0_46427459的博客会话和Cookies 在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就...
访问API中的自定义标头 php
2018-01-29 06:41

回答 1 已采纳 For anyone having this issue, after some trial and error I've discovered that the reason Custom_He
访问控制允许源标头不随提取API调用提供 ajax
2015-09-22 16:45

回答 2 已采纳 Almost all web browsers reject the origin "*". Therefore sending "*" as the Access-Control-Allow-O
从文件读取HTTP标头的最有效方法？
2019-01-02 10:46

回答 2 已采纳 If you only want some headers defined, another option is to define the headers in a Json file and
爬虫基础—HTTP基本原理
2022-05-23 12:58

W_chuanqi的博客个人简介 ...文章目录第1章爬虫基础1.1 HTTP基本原理1. URI和URL2. HTTP和HTTPS3. HTTP请求过程4. 请求请求方法请求的网址请求头请求体5. 响应响应状态码响应头响应体6. HTTP 2.0二进制分帧层多路
如何在Go中获取所有请求标头
2017-11-29 16:21

回答 3 已采纳 Use Request.Header to access all headers. Because Header is a map[string][]string, two loops are r
手把手将近 6 万讲解 Python 常用第三方库、网络编程、网络爬虫详细基础教程
2021-12-23 16:26

唤醒手腕的博客唤醒手腕 Python 爬虫学习笔记，喜欢的同学们可以收藏下，谢谢支持。字符串的分割字符串前后空格的处理，或者特殊字符的处理字符串格式化自定义函数 python文件通常有两种使用方法：第一是作为脚本直接执行。第二...
爬虫的基本原理
2022-10-14 20:41

尘世风的博客一、爬虫的基本原理网络爬虫的价值其实就是数据的价值，在互联网社会中，数据是无价之宝，一切皆为数据，谁拥有了大量有用的数据，谁就拥有了决策的主动权。爬虫聚合站点 ...utm=339115928 ...
爬虫学习-基础（HTTP原理）
2023-12-02 17:48

吗喽也是命的博客 Cookie 里有信息标识了我们所对应的服务器的会话，每次浏览器在请求该站点的页面时，都会在请求头中加上 Cookie 并将其发送给服务器，服务器通过Cookie 识别出是我们自己，并且查出当前状态是登录状态，所以返回结果...
Python爬虫的基本原理简介及内容汇总
2022-03-13 14:22

嵌入式技术的博客请求页面，并返回页面内容 HEAD 类似于GET请求，只不过返回的响应中没有具体内容，主要用于获取报头 POST 大多用于提交表单或上传文件，数据包含在请求体中 PUT 从客户端向服务器传送的数据取代指定文档中的...
python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）
2022-10-18 21:21

永恒之月℡的博客 python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）
python爬虫
2023-02-24 17:00

flowerqt的博客 python爬虫学习
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月17日

悬赏问题

¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 matlab有关常微分方程的问题求解决
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考

爬虫基础访问页面失败 无效标头

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

4条回答 默认 最新

问题事件

悬赏问题

爬虫基础访问页面失败无效标头

4条回答默认最新