请求中加上headers后soup.find_all返回空列表

今天在写一个爬虫程序
最开始我能爬取到数据，代码如下

# 爬取帖子列表信息
def getData(baseurl):
    datalist = []
    # 末尾页2985
    for i in range(0,1):
        # 帖子列表地址
        url = baseurl + str(i*50)
        soup = askURL(url)
        print(soup)
 
        # 逐一解析数据
        for item in soup.find_all('li',class_="j_thread_list clearfix thread_item_box"):
            # 保存一个帖子的信息
            data = []
            item = str(item)
 
            replyNum = re.findall(findReplyNum,item)[0]
            data.append(replyNum)                           # 添加评论数
 
            title = re.findall(findTitle,item)[0]
            data.append(title)                              # 添加帖子名称
 
            link = re.findall(findLink,item)[0]
            link = "https://tieba.baidu.com/" + link        # 拼接为完整链接
            data.append(link)                               # 添加链接
 
            datalist.append(data)
    return datalist
 
# 得到一个指定URL的网页内容
def askURL(url):
    html = requests.get(url,verify=False)
    soup = BeautifulSoup(html.content, 'html.parser')
    return soup

但后来应该是我的IP被锁，运行后爬取得到的soup是网络不给力的页面。

<!DOCTYPE html>
 
<html lang="zh-CN">
<head>
<meta charset="utf-8"/>
<title>百度安全验证</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<meta content="black" name="apple-mobile-web-app-status-bar-style"/>
<meta content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0" name="viewport"/>
<meta content="telephone=no, email=no" name="format-detection"/>
<link href="https://www.baidu.com/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://www.baidu.com/img/baidu.svg" mask="" rel="icon" sizes="any"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="upgrade-insecure-requests" http-equiv="Content-Security-Policy"/>
<link href="https://ppui-static-wap.cdn.bcebos.com/static/touch/css/api/mkdjump_aac6df1.css" rel="stylesheet">
</link></head>
<body>
<div class="timeout hide">
<div class="timeout-img"></div>
<div class="timeout-title">网络不给力，请稍后重试</div>
<button class="timeout-button" type="button">返回首页</button>
</div>
<div class="timeout-feedback hide">
<div class="timeout-feedback-icon"></div>
<p class="timeout-feedback-title">问题反馈</p>
</div>
<script src="https://wappass.baidu.com/static/machine/js/api/mkd.js"></script>
<script src="https://ppui-static-wap.cdn.bcebos.com/static/touch/js/mkdjump_db105ab.js"></script>
</body>
</html>

于是我伪装了一个请求头

head = {
   "User-Agent":...
   "Cookie":...
}
html = requests.get(url,verify=False,headers=head)

这时soup中有完整的页面类容，但soup.find_all就成了一个空列表。
请问有朋友知道怎么解决吗，为什么不加headers时soup.find_all就是正常的

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-06 07:47
关注
说明您设置的这个j_thread_list clearfix thread_item_box值不正确，当获取不正常的时候有这个值，获取正常的时候没有这个个值，建议重新定位下元素。以及在获取到的页面内容中查找下j_thread_list clearfix thread_item_box这个值是否真的存在。获取到的和你在网页上看到的还是有区别的，有的时候。望采纳

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

请求中加上headers后soup.find_all返回空列表 python 爬虫
2023-03-06 02:40

回答 2 已采纳说明您设置的这个j_thread_list clearfix thread_item_box值不正确，当获取不正常的时候有这个值，获取正常的时候没有这个个值，建议重新定位下元素。以及在获取到的页面内容
用Python爬取智慧树问题时，没办法入到soup.find_all（）的for循环中 python
2021-08-27 15:54

回答 1 已采纳因为你数据没有抓取到, 所以打印没输出
Python爬虫，我用bs4的find方法为什么反回的是空值？怎么解决（已解决）？ python
2019-08-18 15:16

回答 1 已采纳 find找到空值，就证明没找到，你可以先打印request返回的内容，确认确实返回了内容再然后就是你的find查找标签，可能标签不对，先找上一级标签，print出来看行不行一级一级往下呗。
python中data.find_all爬取网站为空列表_入门级案例 | 爬取知乎和微博热门数据的代码和思路...
2020-12-20 08:35

weixin_39560245的博客源 / TEDxPY 文 / TED今天来分享下这两天写的入门级的爬取知乎热榜和微博热门数据的代码和思路。网络爬虫(又称为网页蜘蛛，网络...知乎热榜中的内容热度值，是根据该条内容近24小时内的浏览量、互动量、专业加权...
爬虫出现'NoneType' object has no attribute 'find_all错误 html 爬虫
2022-07-26 23:44

回答 2 已采纳你打印你的text看下，是乱码，要设置字符集
python爬虫正则表达式re.findall只能获取众多链接中的一个 python
2020-09-29 22:54

回答 2 已采纳试一下下面这种 ``` regex = re.compile('') for i in re.findall(regex,text): print(i) ``` ![图片说明](h
ssl._create_default_https_context无效 python
2018-03-04 19:10

回答 1 已采纳这个是跟服务器连接失败，你的代理能不能正确连接等
Python成长之路——regex，bs4，xpath，jsonpath的使用
2019-04-19 12:36

有所为有所不为的博客 [aoe] [a-w] 匹配集合中任意一个字符 \d 数字[0-9] \D 非数字 \w 数字、字母、下划线、中文 \W 非\w \s 所有的空白字符 \S 非空白数量修饰类型说明 *...
nginx升级报错‘ngx_http_headers_in_t’ has no member named ‘cookies’ linux nginx 运维
2022-11-02 16:03

回答 6 已采纳你的“headers-more-nginx-module”模块的代码应该是以前留存的不是最新的，在nginx 1.23这个版本对你手中的代码不兼容。解决方案：继续使用1.23.2进行编译，你需要去“
爬虫KS实战中，最后一行代码K.parms_start_url()要求定义self, 与视频不一样 python 有问必答爬虫
2022-02-21 02:46

回答 2 已采纳将类实例化的时候,类名后面要带括号形如 if __name__ == '__main__': k = KSchengdu_event() k.parms_start_url() se
爬虫爬取时返回空列表 python 有问必答正则表达式
2021-11-29 20:10

回答 1 已采纳正则去掉class内容，bilibili源代码没有class findLink=re.compile(r'<a href="(.*?)" target="_blank">.*?<
Spider爬虫笔记[更新中...]
2020-08-31 15:36

Sami9的博客 urllib库是python中最基本的一个网页请求库，可以模拟浏览器行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 request下的urlopen()和urlretrieve() urlopen() from urllib import request # ...
正则表达式返回结果为空列表，请问怎么解决？ python 爬虫
2022-08-05 10:54

回答 3 已采纳 import requests import re headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK
Mojo编程语言：Python易用性与C性能的完美结合
2023-05-09 14:22

亿牛云爬虫专家的博客 Mojo是一门新兴的编程语言，但已经有一些用户可以通过Mojo Playground在线体验Mojo的编程。Mojo的发展趋势是利用MLIR（多层次中间表示）作为其核心基础，实现跨平台、跨语言、跨硬件的优化和部署。Mojo是Python的超...
6.网络爬虫——BeautifulSoup详讲与实战
2023-03-25 12:14

以山河作礼。的博客 Beautiful Soup 简称 BS4（其中 4 表示版本号）BeautifulSoup是一个Python库，用于从HTML和XML文件中提取数据。它提供了一些简单的方式来遍历文档树和搜索文档树中的特定元素。 BeautifulSoup可以解析HTML和XML文档...
python爬取网站大数据_[Python]爬虫抓取大数据职位数据
2020-12-05 05:48

weixin_39623050的博客《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。随大数据时代一起来来临的，是越来越多的大数据工作岗位。在...
python爬虫动态加载页面_如何爬动态加载的页面？ajax爬虫你有必要掌握
2020-11-26 11:32

weixin_40008920的博客它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了Ajax，便可以在页面...
爬虫.....
2023-06-20 00:54

Int mian[]的博客当采用 POST 方式向指定位置提交数据时，数据被包含在请求体中，服务器接收到这些数据后可能会建立新的资源、也可能会更新已有的资源。思路：只要中文片名，需要找到每个div class="hd"下的第一个告诉其他信息，一般...
【python】爬取豆瓣电影排行榜Top250存储到Excel文件中【附源码】
2024-01-05 14:49

Yan-英杰的博客爬取豆瓣电影排行榜Top250存储到Excel文件中
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月6日

悬赏问题

¥15 关于大棚监测的pcb板设计
¥20 sim800c模块 at指令及平台
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计

请求中加上headers后soup.find_all返回空列表

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新