csdn上的博客,大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本,能原样保存下来???
我一般用bs4解析。其他的不会。
爬取博客的富文本内容
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- TPH-A 2020-05-19 10:02关注
这个简单
first,导入lxml库
from lxml import etree
使用requests获取网页HTML
from lxml import etree import requests gets = requests.get(url) gets = gets.text 获取HTML数据 html = etree.HTML(gets) #xpath获取文本(自己上网copy) html = html.xpath(xpath) #下载 for web in html: file = open("test.txt", "w+") file.write(web) file.close()
就这
The End!解决 无用评论 打赏 举报