我试着爬取一个网站的数据时,爬取的标题如下
我想要这个标题title,但是提取出来的内容含有html标签
广州“1+9”科技创新与<em>人</em><em>才</em>政策解读(七)——产业领军<em>人</em><em>才</em>集聚工程政策
想问问有没有什么好的办法可以删去这些个html标签
试过使用正则匹配汉字,但是有些符号比如【】会丢失,且效率不高
我试着爬取一个网站的数据时,爬取的标题如下
广州“1+9”科技创新与<em>人</em><em>才</em>政策解读(七)——产业领军<em>人</em><em>才</em>集聚工程政策
想问问有没有什么好的办法可以删去这些个html标签
试过使用正则匹配汉字,但是有些符号比如【】会丢失,且效率不高
使用BeautifulSoup库, pip install beautifulsoup4
from bs4 import BeautifulSoup
html_text = '广州“1+9”科技创新与<em>人</em><em>才</em>政策解读(七)——产业领军<em>人</em><em>才</em>集聚工程政策'
soup = BeautifulSoup(html_text, 'html.parser')
text_without_tags = soup.get_text()
print(text_without_tags)
# 广州“1+9”科技创新与人才政策解读(七)——产业领军人才集聚工程政策