放风喽 2020-05-19 00:23 采纳率: 0%
浏览 415

爬取博客的富文本内容

csdn上的博客,大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本,能原样保存下来???
我一般用bs4解析。其他的不会。

  • 写回答

1条回答 默认 最新

  • TPH-A 2020-05-19 10:02
    关注

    这个简单

    first,导入lxml库

    from lxml import etree
    

    使用requests获取网页HTML

    from lxml import etree
    import requests
    gets = requests.get(url)
    gets = gets.text
    获取HTML数据
    html = etree.HTML(gets)
    #xpath获取文本(自己上网copy)
    html = html.xpath(xpath)
    #下载
    for web in html:
        file = open("test.txt", "w+")
        file.write(web)
        file.close()
    

    就这
    The End!

    评论

报告相同问题?

悬赏问题

  • ¥15 树莓派与pix飞控通信
  • ¥15 自动转发微信群信息到另外一个微信群
  • ¥15 outlook无法配置成功
  • ¥30 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题