放风喽 2020-05-19 00:23 采纳率: 0%
浏览 415

爬取博客的富文本内容

csdn上的博客,大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本,能原样保存下来???
我一般用bs4解析。其他的不会。

  • 写回答

1条回答 默认 最新

  • TPH-A 2020-05-19 10:02
    关注

    这个简单

    first,导入lxml库

    from lxml import etree
    

    使用requests获取网页HTML

    from lxml import etree
    import requests
    gets = requests.get(url)
    gets = gets.text
    获取HTML数据
    html = etree.HTML(gets)
    #xpath获取文本(自己上网copy)
    html = html.xpath(xpath)
    #下载
    for web in html:
        file = open("test.txt", "w+")
        file.write(web)
        file.close()
    

    就这
    The End!

    评论

报告相同问题?

悬赏问题

  • ¥15 多址通信方式的抗噪声性能和系统容量对比
  • ¥15 winform的chart曲线生成时有凸起
  • ¥15 msix packaging tool打包问题
  • ¥15 finalshell节点的搭建代码和那个端口代码教程
  • ¥15 用hfss做微带贴片阵列天线的时候分析设置有问题
  • ¥15 Centos / PETSc / PETGEM
  • ¥15 centos7.9 IPv6端口telnet和端口监控问题
  • ¥20 完全没有学习过GAN,看了CSDN的一篇文章,里面有代码但是完全不知道如何操作
  • ¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
  • ¥20 海浪数据 南海地区海况数据,波浪数据