python萌新求大神debug：beautifulsoup读取html文本时如何选择性过滤标签/内容？

尝试用beautiful soup按标签提取网页中的文字，打算提取的文本是台词，所以是想把有格式标签的文字排除在外，比如说人名有的标签，以及描述性动作有的标签。
比如下面这段html代码，希望能过滤掉b和i标签里的内容

<p>
<b>CLINT BARTON:</b>
 Okay, now let's worry about how you get there. 
<i>
[Clint corrects his daughter's foot to the proper position, and adjusts her shooting stance.]
</i>
<p>

但是哪怕是b和i的标签其实也都是在p的块里，所以我尝试使用attrs的if判断选择似乎完全不起作用……输出的列表似乎还是所有的内容，不知所措……

# read html
path = "C:\\Users\\Desktop\Py\\Endgame.html"
raw = open(path, errors ="ignore", mode = 'r').read()

#get text
soup = BeautifulSoup(raw, "html.parser")
soup.get_text()

#beautiful soup读取html中文本
body = soup.find("div",{"id":"mw-content-text","lang":"en","dir":"ltr"})

para = body.find_all("p")

#尝试读取无格式的台词部分
lines = []
lines = " ".join([p.get_text().strip() for p in para if len(p.attrs)==0])
print(lines)

我太菜了呜呜呜求大神指教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_30238975 2020-05-26 17:17
关注
你可以使用正则尝试一下

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

beautifulsoup如何提取HTML文件中两个相同标签之间的文本？ python 爬虫
2022-07-28 20:30

回答 3 已采纳建议还是使用正则表达式提取会节省内存，主要是由于文件过大，如果使用lxml、bs，会构建完整的数据结构，就会造成内存不足。假设文件是data.html，使用compile对象和re.finditer能
python beautifulsoup 解析html无法获得全部html代码 python
2021-01-04 15:04

回答 3 已采纳因为这个div里面的内容是用ajax动态加载的，而用request获取的是网页的源代码（就是“右键菜单->查看网页源代码”的内容），不包含ajax动态加载的内容。所以要找到ajax加载数据的
求助：python爬取图片，怎么取出标签里的src内容？ python
2020-09-01 20:40

回答 6 已采纳源码中有包含所有图片url的json对象 ![图片说明](https://img-ask.csdn.net/upload/202009/03/1599063207_992984.jpg) 因此可以
两周从爬虫小白变大神，看完你就知道我不是标题党了【五万字教程，建议收藏】
2021-09-28 09:39

五包辣条！的博客 Python爬虫第一天什么是爬虫爬虫与Web后端服务之间的关系 Python爬虫技术的相关库常见反爬虫的策略爬虫库urllib【重要】作业爬虫第二天回顾知识点 requests库【重点】数据解析方式之xpath 绝对...
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
用python抓取爬虫时无法抓取::before与::after之间的内容
2016-10-06 03:24

回答 3 已采纳可能是Ajax异步加载的。需要用selenium等模拟浏览器
读取文件时，能不能跳过不能编码的字符继续读取？(语言-python) python
2022-07-22 10:28

回答 4 已采纳可以啊，你不指定就是了呀，只是可能你保存的小说是乱码的
AI studio 训练分享之Python小白逆袭大神课程
2020-04-25 00:04

renyujie518的博客缘由最近，百度在推广自家的paddlepaddle框架，这同时...但当时没有开通博客，所以，就着这次新的课程，一起扒一下这次课程一些可收获的点，具体的课程链接可见：百度 aistudio实训平台–Python小白逆袭大神课程....
Python BeautifulSoup获取属性值怎么? python
2019-09-20 15:38

回答 1 已采纳 ``` from bs4 import BeautifulSoup html='' soup=BeautifulSoup(html,'lxml') imgs=soup.sele
怎么用Beautifulsoup4提取div块里的文本？如图 python 有问必答爬虫
2022-03-29 09:37

回答 3 已采纳获取tex属性，示例如下 from bs4 import BeautifulSoup soup=''' <div class="cell"> <svg class="icon"&g
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python查阅文献
2021-09-02 19:24

a useful man的博客新姿势：用Python写好的API工具超方便下载论文4.论文关键词批量下载5.异步批量下载优化，增加超时控制6.根据DOI号下载文献7.工作原理一、找到sci-hub目前可用的域名二、对用户输入的论文地址进行解析，找到相应论文...
关于#BeautifulSoup#的问题，如何解决？(语言-python) python
2022-11-27 09:23

回答 1 已采纳帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7538372你也可以参考下这篇文章：python使用beautifulsoup 获取标签,经典笔记
百度飞桨《青春有你2》Python小白逆袭大神活动总结与感悟
2020-04-28 18:37

白茗辉夜的博客百度飞桨《青春有你2》Python小白逆袭大神活动总结** Day1-Python基础练习作业一：输出 9*9 乘法口诀表(注意格式) 第一天讲了python的基本语法相关，虽然没有学校内容详细，但内容都很简单： def table(): #在这里...
100个相见恨晚的Python库
2021-12-20 20:44

一行玩python的博客它总结了Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等各个方向的python库这里面每个方向的库都是
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

python萌新求大神debug：beautifulsoup读取html文本时如何选择性过滤标签/内容？

1条回答 默认 最新

悬赏问题

1条回答默认最新