python爬虫如何用beautifulsoup提取多层div标签下的内容

用request提取到的HTMLdiv标签未能展开，用findall方法，传入“div”“类名”做参数，也提取不到任何内容，求教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-09-27 01:04
关注
URL是要爬的网址，classname是对应的类名称

import requests import bs4 import re url='https://www.XXXX.com' response = requests.get(url).text soup = bs4.BeautifulSoup(response,'html.parser') for i in soup.findAll(name='div',attrs = {'class':'classname'}) print (i)
解决 9

无用 7
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
Python获取div下内容 python 爬虫
2022-04-14 10:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
BeautifulSoup简单应用（python爬虫）
2022-05-10 00:28

那些年错过的东西的博客打开cmd安装 pip install beautifulsoup4 根据属性定位 server=soup.find(attrs={'id':'hao123-...根据属性定位div下的所有a标签 a=soup.find_all(attrs={'class':'g-gc'}) import requests from bs4 import B.
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫如何只爬取标签内容 python
2019-04-28 11:24

回答 1 已采纳用 for key in ee.keys(): print（key）就行啦
关于python爬虫中beautifulsoup4与正则表达式的运用问题！ python
2020-06-21 21:50

回答 1 已采纳 soup.find_all(href=re.compile("view")) soup.查找所有（href属性里面含有view关键字）的结果有时间看看RE模块的用法
python 爬虫提取文本之BeautifulSoup详细用法
2018-09-23 20:24

squabLi的博客提取网页内容四大基本方法之 2.beautifulsoup的使用 bs4模块准备代码信息，用来练习获取内容: from bs4 import BeautifulSoup #准备代码信息，用来练习获取内容 html =''' &lt;html&gt; &...
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
python爬虫如何取出定位标签下的所有子集文本 python
2021-03-27 16:46

回答 1 已采纳将原代码中这段内容： for j in page_spec_data: for k in j.a: # print(k.string) value_word
怎么用Beautifulsoup4提取div块里的文本？如图 python 有问必答爬虫
2022-03-29 09:37

回答 3 已采纳获取tex属性，示例如下 from bs4 import BeautifulSoup soup=''' <div class="cell"> <svg class="icon"&g
python爬虫网站代码嵌套多层_Python爬虫关于多层嵌套iframe的解决
2020-12-14 14:23

weixin_39575054的博客近期由于公司资源需要，我爬取了一个视频网站，结果以为一个很容易的小爬虫，却步步是坑啊，费了一天终于都解决了(太菜了！！！)。前面导航页的爬虫就不多说了，无非就是webdriver和PhantomJS,然后设置referer和ua，...
beautifulsoup如何提取HTML文件中两个相同标签之间的文本？ python 爬虫
2022-07-28 20:30

回答 3 已采纳建议还是使用正则表达式提取会节省内存，主要是由于文件过大，如果使用lxml、bs，会构建完整的数据结构，就会造成内存不足。假设文件是data.html，使用compile对象和re.finditer能
Python之爬虫之BeautifulSoup学习
2022-10-01 16:43

shy014的博客 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。由于 BeautifulSoup 是基于 Python，所以相对来说速度会比另一个 Xpath 会慢点，但是其功能也是非常的强大学习资料中文官网：...
python爬虫之数据解析（BeautifulSoup）
2022-02-15 16:03

X-Hoshino的博客 BeautifulSoup也是python爬虫常用的一种数据解析方法，主要就两步。 1、实例化一个Beautifulsoup对象，平且将页面源码数据加载到该对象中。 2、通过调用Beautifulsoup对象中相关的属性或者方法进行标签定位和数据...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

python爬虫如何用beautifulsoup提取多层div标签下的内容

3条回答 默认 最新

悬赏问题

3条回答默认最新