爬虫时，json里面有html格式内容，该如何提取

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-01 12:40
关注
先用字典键名取含html代码的那部分值，用BeautifulSoup进行解析提取相关数据，用如下代码尝试：

from bs4 import BeautifulSoup as bs #假如返回jason的数据变量名为data title=data['data']['trackInfo']['title'] content = data['data']['trackInfo']['richIntro'] soup=bs(content,'lxml') para=[x.text.strip() for x in soup.select('p')] result=title+'\n'+'\n'.join(para) print(result)

如果解答对你有所帮助或启发的话，请点一下采纳。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

爬虫时，json里面有html格式内容，该如何提取 python 有问必答
2021-06-01 12:10

回答 3 已采纳先用字典键名取含html代码的那部分值，用BeautifulSoup进行解析提取相关数据，用如下代码尝试： from bs4 import BeautifulSoup as bs #假如返回ja
python爬虫使用json()方法将response结果转化为JSON格式时报错 json python 爬虫
2022-02-11 13:01

回答 4 已采纳网站设计了相应的反扒策略，需要把Cookie添加到headers中，这种问题一般从headers入手，有的限制User-Agent必须有，有的限制Cookie headers = { 'Cooki
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python爬虫 json库应用详解
2021-01-20 11:33

文章目录Python爬虫（三）—— json库应用详解 ——一.json库简介二.将JSON字符串转为Python字典或列表二.将Python字典或列表转为JSON字符串一.json库简介 JSON(JavaScript Object Notation) 是一种轻量级的数据...
Python爬虫获取到的HTML格式的信息如何转换成json格式 python
2020-07-26 09:08

回答 2 已采纳 json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) 看看你的编码，是不是不是utf8或者包含了不合法的字符
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
Python爬虫时遇到问题： json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) json python 爬虫
2022-07-23 12:09

回答 3 已采纳
python爬虫4：json提取数据
2022-10-08 15:30

枷锁猴的博客简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。稍加分析可以看出，type为热门类型（可选参数为movie,tv），tag为热门电影电视剧...
python中如何提取JSON格式花括号中的jpg json 爬虫
2022-10-20 22:08

回答 1 已采纳 import json import requests from urllib.request import urlretrieve url = 'https://wlop.huotan.com/a
python爬虫时遇到的json.loads()问题 python 爬虫
2021-08-16 17:02

回答 2 已采纳 url中的请求参数 callback=....去掉试试
用python语言整理json格式的数据 json python 爬虫
2023-04-03 22:58

回答 3 已采纳也可以考虑正则匹配 import re import json s = ''' jsonp109({ "returnCode": "0", "returnValue": { "A":
python爬虫json_python爬虫数据提取一之json
2021-02-04 06:01

守望北极星的猫的博客简单的来说，数据提取就是从响应中获取我们想要的数据的过程1.1 数据分类非结构化数据: html , 文本等处理方法：正则表达式，xpath语法结构化数据：json，xml等处理方法：转换为python数据类型2 复习JSON知识JSON...
Python爬虫关于header，data，json的问题 json python
2021-09-26 10:56

回答 2 已采纳这个你要看你爬的是什么？每个爬的目标是什么？这个主要是因为每个站的反爬机制是不一样！
Python爬虫——Python json模块常用方法
2023-03-20 10:15

Itmastergo的博客 JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，遵循欧洲计算机协会制定的 JavaScript 规范（简称 ECMAScript）。JSON 易于人阅读和编写，同时也易于机器解析和生成，能够有效的提升网信息的传输...
小白爬虫-下载网页JSON数据以及下载网页图片-Python-适合有一点点经验的新手、小白
2024-01-20 17:21

1、首先是获取网页的JSON数据 2、然后用迭代器把JSON数据内容打印出来查看 3、然后展示如何通过URL把网页的图片内容下载到本地
没有解决我的问题, 去提问

悬赏问题

¥15 fluent的在模拟压强时使用希望得到一些建议
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用
¥15 Web.config连不上数据库
¥15 我想付费需要AKM公司DSP开发资料及相关开发。
¥15 怎么配置广告联盟瀑布流
¥15 Rstudio 保存代码闪退

爬虫时，json里面有html格式内容，该如何提取

3条回答 默认 最新

悬赏问题

3条回答默认最新