用BeautifulSoup无法提取到被br分割开的信息

用BeautifulSoup无法提取到被br分割开的信息，我该如何提取这些信息呢

# -*- coding = utf-8 -*-
import re
import requests
from bs4 import BeautifulSoup
import lxml

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

url = "http://www.crpsz.com/zbxx/006001/006001001/20230725/a025dabc-b9ce-40e5-8d14-34fcb0cf1bc3.html"

page = requests.get(url, headers=header, timeout=5,
                    allow_redirects=False)
page.encoding = "utf-8"
soup = BeautifulSoup(page.text, 'html.parser')
contents = soup.find_all('span')
for content in contents:
    content = str(content)
    print(content)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

藏柏 2023-07-27 08:53

关注


import requests
from bs4 import BeautifulSoup

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

url = "http://www.crpsz.com/zbxx/006001/006001001/20230725/a025dabc-b9ce-40e5-8d14-34fcb0cf1bc3.html"
page = requests.get(url, headers=header, timeout=5, allow_redirects=False)
page.encoding = "utf-8"
soup = BeautifulSoup(page.text, 'html.parser')

# 查找所有span标签
contents = soup.find_all('span')
for content in contents:
    # 获取当前span标签后的所有文本内容，直到遇到下一个标签
    full_text = content.find_next_sibling(text=True)
    print(full_text)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

怎么用Beautifulsoup4提取div块里的文本？如图 python 有问必答爬虫
2022-03-29 09:37

回答 3 已采纳获取tex属性，示例如下 from bs4 import BeautifulSoup soup=''' <div class="cell"> <svg class="icon"&g
beautifulsoup如何提取HTML文件中两个相同标签之间的文本？ python 爬虫
2022-07-28 20:30

回答 3 已采纳建议还是使用正则表达式提取会节省内存，主要是由于文件过大，如果使用lxml、bs，会构建完整的数据结构，就会造成内存不足。假设文件是data.html，使用compile对象和re.finditer能
如何用BeautifulSoup方法提取网页代码中的标签，将提取出的数据，依次放入excel文件中 python selenium
2022-07-30 23:58

回答 4 已采纳 headlist是一个列表，直接往后面加就不对了 import xlwt from bs4 import BeautifulSoup if __name__=="__main__": w
高中信息技术合格考试Python编程知识点全整理【连载....】
2022-10-27 02:12

Rui-Yang的博客在语言层面上，合格考的要求学习变量命名，赋值，使用认识各种数据类型知道常用的数据组合形式，例如列表使用常用的内置函数或方法会使用math库或运算符进行数据计算会使用顺序结构会使用if-elif-else分支结构会使用...
使用beautifulsoup定位到对象后，用对象的text属性，提取不出文本，求问大佬, python 问答团队
2021-02-24 16:49

回答 7 已采纳获取了所需数据就可结合其他代码使用，因为此数据是js动态加载的，直接用requests.get是获取不到的，一般用selenium，或者用网站的api再get或post获取，还可用requests_h
采用BeautifulSoup库无法解析到网址信息，求解决方法 python 有问必答
2021-10-20 00:23

回答 2 已采纳因为这个网页中的公司网址是通过js代码来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。在页面上点击右键，右键菜单中选
tag中提取json提取不出来求解 #python#beautifulsoup python
2020-08-12 14:47

回答 3 已采纳试下下面查找json内容： bs.find(type="text/json").string
《基于语言模型的行业信息获取系统：设计与实现》
2024-09-06 21:15

Alex程的博客基于语言模型的系统能够通过理解用户输入的自然语言，进行语义层面的分析和匹配，进而提供更智能化的检索体验。
python beautifulsoup 解析html无法获得全部html代码 python
2021-01-04 15:04

回答 3 已采纳因为这个div里面的内容是用ajax动态加载的，而用request获取的是网页的源代码（就是“右键菜单->查看网页源代码”的内容），不包含ajax动态加载的内容。所以要找到ajax加载数据的
用BeautifulSoup4 解析html的内容
2018-05-05 07:01

回答 2 已采纳 soup = BeautifulSoup(html, 'html.parser') # html为您的html内容 text = soup.find('div').text
请问用BeautifulSoup如何获取p标签内的值 python 爬虫
2015-10-11 14:32

回答 1 已采纳 http://zhidao.baidu.com/link?url=RwqRI-mffUi0v72naV59GVaAyDeFVECc6vtfaE82hwVWumkAUNGCSTGHi-et-WADdNO
全网最全python爬虫精进（体系学习）学完可就业（附源代码）
2021-05-17 19:00

yk 坤帝的博客个人公众号 yk 坤帝 ... ...HTML（Hyper Text Markup Language）是...（Windows系统的电脑还可以使用快捷键ctrl+u来查看网页源代码） ②、检查 windows：在网页的空白处点击右键，然后选择“检查”（快捷方式是ctrl+shift+i）
beautifulsoup python
2023-02-22 12:27

回答 2 已采纳该回答内容部分引用GPT，GPT_Pro更好的解决问题上述代码有错误，主要是open的括号中的example htmi不是一个有效的文件路径，所以无法打开对应的文件；此外，BeautifulSoup函
《用Python进行自然语言处理》第3章加工原料文本
2018-04-13 20:13

剑九黄的博客 1. 我们怎样才能编写程序访问本地和网络上的文件，从而获得无限的语言材料?2. 我们如何把文档分割成单独的词和标点符号，这样我们就可以开始像前面章节中在文本语料上做的那样的分析?3. 我们怎样编程程序产生格式化...
《Python核心编程（第3版）》学习笔记及书评
2021-04-22 17:45

李英俊小朋友的博客《Python核心编程（第3版）》学习笔记文章目录《Python核心编程（第3版）》学习笔记写在前面1. 正则表达式1.1 常用语法1.2 re模块2. 网络编程2.1 socket网络编程2.2 SocketServer 模块2.3 Twisted框架介绍3. 因特网...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月27日

悬赏问题

¥100 网页游戏在本地页面修改游戏结果
¥30 comfyui openpose报错
¥20 Wpf Datarid单元格闪烁效果的实现
¥15 图像分割、图像边缘提取
¥15 sqlserver执行存储过程报错
¥100 nuxt、uniapp、ruoyi-vue 相关发布问题
¥15 浮窗和全屏应用同时存在，全屏应用输入法无法弹出
¥100 matlab2009 32位一直初始化
¥15 Expected type 'str | PathLike[str]…… bytes' instead
¥15 三极管电路求解，已知电阻电压和三级关放大倍数

用BeautifulSoup无法提取到被br分割开的信息

用BeautifulSoup无法提取到被br分割开的信息，我该如何提取这些信息呢

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新