天涯望海 2021-12-14 14:41 采纳率: 100%
浏览 25
已结题

网抓遇到多个网抓遇到一个页面有多个<html> </html>

网抓遇到不规范的网页,一个网页里面有多个 该咋办,BeautifulSoup只会处理第一个 的内容

  • 写回答

1条回答 默认 最新

  • CSDN专家-showbo 2021-12-14 14:45
    关注

    没问题吧?

    img

    from bs4 import BeautifulSoup
    s='''
    <html><a>aa</a></html>
    <html><a>bb</a></html>
    '''
    
    soup=BeautifulSoup(s,'html.parser')
    print(soup.select('a'))
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月22日
  • 已采纳回答 12月14日
  • 创建了问题 12月14日

悬赏问题

  • ¥15 Vs2022安装时黑框闪退无反应
  • ¥15 嵌入式设备网口down后再up时不能link?
  • ¥15 关于区块链和边缘计算
  • ¥15 做一个简单项目,用Python分析共享单车的数据
  • ¥20 在使用CESM2.2.0模型进行case.submit过程中出现如下错误(关键词-Map)
  • ¥15 有办法改变通过wifi进入的网站的设置吗
  • ¥15 所以到底怎么算!算到凌晨五点都算不出来!
  • ¥15 label_studio
  • ¥15 请教如何phython发邮件
  • ¥15 linux系统安装问题