放风喽 2020-05-19 00:23 采纳率: 0%
浏览 425

爬取博客的富文本内容

csdn上的博客,大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本,能原样保存下来???
我一般用bs4解析。其他的不会。

  • 写回答

1条回答 默认 最新

  • TPH-A 2020-05-19 10:02
    关注

    这个简单

    first,导入lxml库

    from lxml import etree
    

    使用requests获取网页HTML

    from lxml import etree
    import requests
    gets = requests.get(url)
    gets = gets.text
    获取HTML数据
    html = etree.HTML(gets)
    #xpath获取文本(自己上网copy)
    html = html.xpath(xpath)
    #下载
    for web in html:
        file = open("test.txt", "w+")
        file.write(web)
        file.close()
    

    就这
    The End!

    评论

报告相同问题?