请求中加上headers后soup.find_all返回空列表

今天在写一个爬虫程序
最开始我能爬取到数据，代码如下

# 爬取帖子列表信息
def getData(baseurl):
    datalist = []
    # 末尾页2985
    for i in range(0,1):
        # 帖子列表地址
        url = baseurl + str(i*50)
        soup = askURL(url)
        print(soup)
 
        # 逐一解析数据
        for item in soup.find_all('li',class_="j_thread_list clearfix thread_item_box"):
            # 保存一个帖子的信息
            data = []
            item = str(item)
 
            replyNum = re.findall(findReplyNum,item)[0]
            data.append(replyNum)                           # 添加评论数
 
            title = re.findall(findTitle,item)[0]
            data.append(title)                              # 添加帖子名称
 
            link = re.findall(findLink,item)[0]
            link = "https://tieba.baidu.com/" + link        # 拼接为完整链接
            data.append(link)                               # 添加链接
 
            datalist.append(data)
    return datalist
 
# 得到一个指定URL的网页内容
def askURL(url):
    html = requests.get(url,verify=False)
    soup = BeautifulSoup(html.content, 'html.parser')
    return soup

但后来应该是我的IP被锁，运行后爬取得到的soup是网络不给力的页面。

<!DOCTYPE html>
 
<html lang="zh-CN">
<head>
<meta charset="utf-8"/>
<title>百度安全验证</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<meta content="black" name="apple-mobile-web-app-status-bar-style"/>
<meta content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0" name="viewport"/>
<meta content="telephone=no, email=no" name="format-detection"/>
<link href="https://www.baidu.com/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://www.baidu.com/img/baidu.svg" mask="" rel="icon" sizes="any"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="upgrade-insecure-requests" http-equiv="Content-Security-Policy"/>
<link href="https://ppui-static-wap.cdn.bcebos.com/static/touch/css/api/mkdjump_aac6df1.css" rel="stylesheet">
</link></head>
<body>
<div class="timeout hide">
<div class="timeout-img"></div>
<div class="timeout-title">网络不给力，请稍后重试</div>
<button class="timeout-button" type="button">返回首页</button>
</div>
<div class="timeout-feedback hide">
<div class="timeout-feedback-icon"></div>
<p class="timeout-feedback-title">问题反馈</p>
</div>
<script src="https://wappass.baidu.com/static/machine/js/api/mkd.js"></script>
<script src="https://ppui-static-wap.cdn.bcebos.com/static/touch/js/mkdjump_db105ab.js"></script>
</body>
</html>

于是我伪装了一个请求头

head = {
   "User-Agent":...
   "Cookie":...
}
html = requests.get(url,verify=False,headers=head)

这时soup中有完整的页面类容，但soup.find_all就成了一个空列表。
请问有朋友知道怎么解决吗，为什么不加headers时soup.find_all就是正常的

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-06 07:47
关注
说明您设置的这个j_thread_list clearfix thread_item_box值不正确，当获取不正常的时候有这个值，获取正常的时候没有这个个值，建议重新定位下元素。以及在获取到的页面内容中查找下j_thread_list clearfix thread_item_box这个值是否真的存在。获取到的和你在网页上看到的还是有区别的，有的时候。望采纳

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

用Python爬取智慧树问题时，没办法入到soup.find_all（）的for循环中 python
2021-08-27 15:54

回答 1 已采纳因为你数据没有抓取到, 所以打印没输出
爬虫出现'NoneType' object has no attribute 'find_all错误 html 爬虫
2022-07-26 23:44

回答 2 已采纳你打印你的text看下，是乱码，要设置字符集
Python爬虫，我用bs4的find方法为什么反回的是空值？怎么解决（已解决）？ python
2019-08-18 15:16

回答 1 已采纳 find找到空值，就证明没找到，你可以先打印request返回的内容，确认确实返回了内容再然后就是你的find查找标签，可能标签不对，先找上一级标签，print出来看行不行一级一级往下呗。
python中data.find_all爬取网站为空列表_入门级案例 | 爬取知乎和微博热门数据的代码和思路...
2020-12-20 08:35

weixin_39560245的博客源 / TEDxPY 文 / TED今天来分享下这两天写的入门级的爬取知乎热榜和微博热门数据的代码和思路。网络爬虫(又称为网页蜘蛛，网络...知乎热榜中的内容热度值，是根据该条内容近24小时内的浏览量、互动量、专业加权...
python爬虫正则表达式re.findall只能获取众多链接中的一个 python
2020-09-29 22:54

回答 2 已采纳试一下下面这种 ``` regex = re.compile('') for i in re.findall(regex,text): print(i) ``` ![图片说明](h
ssl._create_default_https_context无效 python
2018-03-04 19:10

回答 1 已采纳这个是跟服务器连接失败，你的代理能不能正确连接等
aiohttp配置proxy后访问出错_怎么解决 python 有问必答
2021-05-13 18:56

回答 2 已采纳先用requests试试你的代理能否正常使用
Python成长之路——regex，bs4，xpath，jsonpath的使用
2019-04-19 12:36

有所为有所不为的博客 [aoe] [a-w] 匹配集合中任意一个字符 \d 数字[0-9] \D 非数字 \w 数字、字母、下划线、中文 \W 非\w \s 所有的空白字符 \S 非空白数量修饰类型说明 *...
postman请求headers中文报错 http postman 测试工具
2022-11-28 11:18

回答 1 已采纳右键encode
nginx升级报错‘ngx_http_headers_in_t’ has no member named ‘cookies’ linux nginx 运维
2022-11-02 16:03

回答 6 已采纳你的“headers-more-nginx-module”模块的代码应该是以前留存的不是最新的，在nginx 1.23这个版本对你手中的代码不兼容。解决方案：继续使用1.23.2进行编译，你需要去“
爬虫KS实战中，最后一行代码K.parms_start_url()要求定义self, 与视频不一样 python 有问必答爬虫
2022-02-21 02:46

回答 2 已采纳将类实例化的时候,类名后面要带括号形如 if __name__ == '__main__': k = KSchengdu_event() k.parms_start_url() se
python爬虫
2021-07-15 23:59

恐龙妹GO的博客第0关初识爬虫（涉及到得函数requests）爬虫得4个步骤： 0 获取数据 1 解析数据 2 提取数据 3 储存数据 Request 库 ...① requests.status_code 检查请求是否成功 ② requests.content 把requests转
Spider爬虫笔记[更新中...]
2020-08-31 15:36

Sami9的博客 urllib库是python中最基本的一个网页请求库，可以模拟浏览器行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 request下的urlopen()和urlretrieve() urlopen() from urllib import request # ...
Python爬虫自学
2022-01-30 18:37

皮氧氧的博客依据头部信息中的编码约定对内容进行解码 content 以字节（二进制）格式显示响应内容 headers 以字典形式存储的服务器响应头部信息 Response对象的状态码属性status_code用一个整数反映了这次请求的结果状态，200...
6.网络爬虫——BeautifulSoup详讲与实战
2023-03-25 12:14

以山河作礼。的博客 Beautiful Soup 简称 BS4（其中 4 表示版本号）BeautifulSoup是一个Python库，用于从HTML和XML文件中提取数据。它提供了一些简单的方式来遍历文档树和搜索文档树中的特定元素。 BeautifulSoup可以解析HTML和XML文档...
网络爬虫Request静态页面数据获取
2024-09-17 22:35

Mr数据杨的博客通过本文的学习与实践，你应该已经掌握了如何在 Web 开发中使用请求来获取和处理静态页面的数据。我们详细探讨了如何通过requests库发送 HTTP 请求，并利用解析网页内容。除了基本的数据抓取方法，还介绍了如何应对...
Python网络爬虫基础进阶到实战教程
2023-06-22 15:27

全栈若城的博客接着详细讲解了Python中的Requests模块的get请求和实践，以及Post请求的区别和使用示例。然后介绍了Xpath解析和BeautifulSoup库的应用，演示了如何解析HTML和XML文档并提取信息。此外，还介绍了正则表达式的基本用法...
Mojo编程语言：Python易用性与C性能的完美结合
2023-05-09 14:22

亿牛云爬虫专家的博客 Mojo是一门新兴的编程语言，但已经有一些用户可以通过Mojo Playground在线体验Mojo的编程。Mojo的发展趋势是利用MLIR（多层次中间表示）作为其核心基础，实现跨平台、跨语言、跨硬件的优化和部署。Mojo是Python的超...
python tk combobox设置值为空_python爬虫：做一个界面爬虫小软件
2020-12-01 18:36

weixin_39522927的博客 <div class="._5ce-wx-style" style="font-size:16px;"> <div class="rich_media_content" id="js_content"> <blockquote><p>上一篇介绍了如何抓取一个图片网站下的mz，这里我们继续丰富上述内容</p></blockquote>...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月6日

悬赏问题

¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化

请求中加上headers后soup.find_all返回空列表

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新