Doki1201 2023-07-27 08:51 采纳率: 66.7%
浏览 2
已结题

用BeautifulSoup无法提取到被br分割开的信息

用BeautifulSoup无法提取到被br分割开的信息,我该如何提取这些信息呢

img

img

# -*- coding = utf-8 -*-
import re
import requests
from bs4 import BeautifulSoup
import lxml

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

url = "http://www.crpsz.com/zbxx/006001/006001001/20230725/a025dabc-b9ce-40e5-8d14-34fcb0cf1bc3.html"

page = requests.get(url, headers=header, timeout=5,
                    allow_redirects=False)
page.encoding = "utf-8"
soup = BeautifulSoup(page.text, 'html.parser')
contents = soup.find_all('span')
for content in contents:
    content = str(content)
    print(content)

  • 写回答

3条回答 默认 最新

  • 藏柏 2023-07-27 08:53
    关注
    
    import requests
    from bs4 import BeautifulSoup
    
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    
    url = "http://www.crpsz.com/zbxx/006001/006001001/20230725/a025dabc-b9ce-40e5-8d14-34fcb0cf1bc3.html"
    page = requests.get(url, headers=header, timeout=5, allow_redirects=False)
    page.encoding = "utf-8"
    soup = BeautifulSoup(page.text, 'html.parser')
    
    # 查找所有span标签
    contents = soup.find_all('span')
    for content in contents:
        # 获取当前span标签后的所有文本内容,直到遇到下一个标签
        full_text = content.find_next_sibling(text=True)
        print(full_text)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 8月4日
  • 已采纳回答 7月27日
  • 创建了问题 7月27日

悬赏问题

  • ¥100 网页游戏在本地页面修改游戏结果
  • ¥30 comfyui openpose报错
  • ¥20 Wpf Datarid单元格闪烁效果的实现
  • ¥15 图像分割、图像边缘提取
  • ¥15 sqlserver执行存储过程报错
  • ¥100 nuxt、uniapp、ruoyi-vue 相关发布问题
  • ¥15 浮窗和全屏应用同时存在,全屏应用输入法无法弹出
  • ¥100 matlab2009 32位一直初始化
  • ¥15 Expected type 'str | PathLike[str]…… bytes' instead
  • ¥15 三极管电路求解,已知电阻电压和三级关放大倍数