weixin_55635576 2021-06-01 12:10 采纳率: 75%
浏览 106
已采纳

爬虫时,json里面有html格式内容,该如何提取

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2021-06-01 12:40
    关注

    先用字典键名取含html代码的那部分值 ,用BeautifulSoup进行解析提取相关数据,用如下代码尝试:

    from bs4 import BeautifulSoup as bs
    #假如返回jason的数据变量名为data
    title=data['data']['trackInfo']['title']
    content = data['data']['trackInfo']['richIntro']
    soup=bs(content,'lxml')
    para=[x.text.strip() for x in soup.select('p')]
    result=title+'\n'+'\n'.join(para)
    print(result)

    如果解答对你有所帮助或启发的话,请点一下采纳。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
  • ¥20 软件测试决策法疑问求解答
  • ¥15 win11 23H2删除推荐的项目,支持注册表等
  • ¥15 matlab 用yalmip搭建模型,cplex求解,线性化处理的方法
  • ¥15 qt6.6.3 基于百度云的语音识别 不会改
  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?
  • ¥15 lingo18勾选global solver求解使用的算法
  • ¥15 全部备份安卓app数据包括密码,可以复制到另一手机上运行
  • ¥20 测距传感器数据手册i2c