写不出来就跑路 2023-09-20 16:59 采纳率: 33.3%
浏览 4

python爬虫爬取数据问题

我试着爬取一个网站的数据时,爬取的标题如下

img


我想要这个标题title,但是提取出来的内容含有html标签

img

广州&ldquo;1+9&rdquo;科技创新与<em></em><em></em>政策解读(七)&mdash;&mdash;产业领军<em></em><em></em>集聚工程政策

想问问有没有什么好的办法可以删去这些个html标签

试过使用正则匹配汉字,但是有些符号比如【】会丢失,且效率不高

  • 写回答

2条回答 默认 最新

  • 无序繁星 2023-09-20 17:20
    关注

    使用BeautifulSoup库, pip install beautifulsoup4

    from bs4 import BeautifulSoup
    
    html_text = '广州&ldquo;1+9&rdquo;科技创新与<em></em><em></em>政策解读(七)&mdash;&mdash;产业领军<em></em><em></em>集聚工程政策'
    soup = BeautifulSoup(html_text, 'html.parser')
    text_without_tags = soup.get_text()
    print(text_without_tags)
    # 广州“1+9”科技创新与人才政策解读(七)——产业领军人才集聚工程政策
    
    评论

报告相同问题?

问题事件

  • 创建了问题 9月20日

悬赏问题

  • ¥15 ansys fluent计算闪退
  • ¥15 有关wireshark抓包的问题
  • ¥15 需要写计算过程,不要写代码,求解答,数据都在图上
  • ¥15 向数据表用newid方式插入GUID问题
  • ¥15 multisim电路设计
  • ¥20 用keil,写代码解决两个问题,用库函数
  • ¥50 ID中开关量采样信号通道、以及程序流程的设计
  • ¥15 U-Mamba/nnunetv2固定随机数种子
  • ¥15 vba使用jmail发送邮件正文里面怎么加图片
  • ¥15 vb6.0如何向数据库中添加自动生成的字段数据。