爬取博客的富文本内容

csdn上的博客，大部分都是图文并茂的。
一般都是富文本生成的。
如何爬取这些富文本，能原样保存下来？？？
我一般用bs4解析。其他的不会。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
TPH-A 2020-05-19 10:02
关注
这个简单

first，导入lxml库

from lxml import etree

使用requests获取网页HTML

from lxml import etree import requests gets = requests.get(url) gets = gets.text 获取HTML数据 html = etree.HTML(gets) #xpath获取文本(自己上网copy) html = html.xpath(xpath) #下载 for web in html: file = open("test.txt", "w+") file.write(web) file.close()

就这
The End!
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬取相同div中的内容 python 有问必答
2022-10-19 21:14

回答 2 已采纳 from pyquery import PyQuery as pq import requests import csv url='https://item.kongfz.com/Cxiaosh
音乐爬取、requests库、Python爬虫
2022-11-16 18:34

刘欣琪的博客的博客爬取音乐生成器、输入歌手名字一键爬取。
用xpath爬取文本时如何去掉非文本内容 python 爬虫
2021-12-18 14:35

回答 1 已采纳 discribe =html.xpath('normalize-space(//div[@class="container-fluid"]//div[@class="work_b"]//text()
怎么爬取正脸照利用Python完成 python 有问必答
2021-07-16 10:34

回答 1 已采纳网页的图片都是有个图片的地址连接的，你在开发者工具找到对应的图片，分析图片地址连接就可以了
Python获取div下内容 python 爬虫
2022-04-14 10:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
Python入门自学进阶-Web框架——34、富文本编辑器KindEditor、爬虫初步
2023-03-10 10:11

kaoa000的博客 KindEditor富文本编辑器使用，爬虫初步
求助：python爬取图片，怎么取出标签里的src内容？ python
2020-09-01 20:40

回答 6 已采纳源码中有包含所有图片url的json对象 ![图片说明](https://img-ask.csdn.net/upload/202009/03/1599063207_992984.jpg) 因此可以
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python 问财网搜索界面新闻爬取 python 爬虫
2021-12-25 00:39

回答 7 已采纳先用postman 测试headers里面那些内容不是必须的。分析那些cookie 是浏览器生成的，那些是服务器返回的。去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这
python爬取贴吧数据_Python爬虫——抓取贴吧帖子
2020-11-21 02:40

weixin_39741459的博客原博文2016-11-13 23:13 −抓取百度贴吧帖子按照这个学习教程，一步一步写出来，中间遇到很多的问题，一一.../user/bin/python import urllib import urllib2 import re class ...相关推荐2019-12-24 10:03 −http...
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
Python代码--爬取音乐
2022-06-24 14:42

少冰九分糖的博客 /usr/bin/env python # -*- coding: utf-8 -*- # ------------------------------ '''''' USER_AGENT_LIST = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)', 'Mozilla/5.0 ...
Python爬取网站文本信息,新手保姆级教程 !
2023-11-04 14:43

码农必胜客的博客在我们爬虫的过程中，我们有时候可以在开发者模式返回的网页里找到完整的json格式的数据，这时候我们就可以运用requests包里的json函数将爬取到的原文本转化格式，从而方便我们提取内容。大家可以看到有一个普遍的...
没有解决我的问题, 去提问

悬赏问题

¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题

爬取博客的富文本内容

1条回答 默认 最新

这个简单

悬赏问题

1条回答默认最新