爬取博客的富文本内容

csdn上的博客，大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本，能原样保存下来？？？
我一般用bs4解析。其他的不会。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
TPH-A 2020-05-19 10:02
关注
这个简单

first，导入lxml库

from lxml import etree

使用requests获取网页HTML

from lxml import etree import requests gets = requests.get(url) gets = gets.text 获取HTML数据 html = etree.HTML(gets) #xpath获取文本(自己上网copy) html = html.xpath(xpath) #下载 for web in html: file = open("test.txt", "w+") file.write(web) file.close()

就这
The End!
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬取公众号文章并实现关键词分析
2025-07-14 16:35

小白学大数据的博客本文介绍了使用Python爬取微信公众号文章并进行关键词分析的技术方案。通过mitmproxy抓包获取公众号API接口，结合requests库模拟请求，爬取文章标题、发布时间、阅读量和正文内容。数据处理使用pandas存储，并利用...
音乐爬取、requests库、Python爬虫
2022-11-16 18:34

刘欣琪的博客的博客爬取音乐生成器、输入歌手名字一键爬取。
Python爬虫的初体验——简单的例子
2022-04-20 18:24

魅美的博客输出结果：一个表（excel 或数据库）三个字段分别是类型、标题、html富文本。爬虫代码如下： import requests from bs4 import BeautifulSoup import xlwt url = 'http://www.ci123.com/baike/nbnc/' headers = ...
python爬取贴吧数据_Python爬虫——抓取贴吧帖子
2020-11-21 02:40

weixin_39741459的博客原博文2016-11-13 23:13 −抓取百度贴吧帖子按照这个学习教程，一步一步写出来，中间遇到很多的问题，一一.../user/bin/python import urllib import urllib2 import re class ...相关推荐2019-12-24 10:03 −http...
python 爬取文本内容并写入json文件
2024-03-02 19:52

linconi的博客 python 爬取文本内容并写入json文件,android存储Json中的信息
python 爬取HTML内容并保存到txt文件内
2020-12-09 15:17

白起5的博客 # @used: 爬取任意页面中任意数据 import re import urllib.request from Utils.Log import Logger Logger_message = Logger() # 爬取gbk网页(爬取html页面文件) html = urllib.request.urlopen(".
Python代码--爬取音乐
2022-06-24 14:42

少冰九分糖的博客 /usr/bin/env python # -*- coding: utf-8 -*- # ------------------------------ '''''' USER_AGENT_LIST = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)', 'Mozilla/5.0 ...
Python中的弹出式获取内容页面层实现方法
2024-07-15 03:54

Anchor@ZhangXQ的博客在Python编程中，开发者经常需要创建用户友好且功能强大的界面来与用户交互。其中，弹出式用户界面(GUI)尤为常见，特别是在需要从用户那里获取输入或显示信息时。　初探弹出式用户界面　Python中有多种工具和库可以...
python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片（一）
2021-01-14 22:32

weixin_34537864的博客 ‘富’, ‘帅’] }1 2 3 4 5 但是在python中不可以直接通过键值对来取得值，所以不得不谈谈python中的字典导入python 中json，通过json.loads(s) -->将json数据转换为python的数据（字典） ajax 的使用 Ajax 即...
python爬取CSDN博客内容为html到本地
2020-02-02 13:18

Kjctar的博客 python环境：3.6 默认保存在用户目录下的 Document下 import re import urllib.request from bs4 import BeautifulSoup def trim(s): if s.startswith(' ') or s.endswith(' '): return re.s...
没有解决我的问题, 去提问

爬取博客的富文本内容

1条回答 默认 最新

这个简单

1条回答默认最新