weixin_44668783 2019-05-29 10:16 采纳率: 100%
浏览 2126
已采纳

Python爬取网页用json解析时出现'unicode' object has no attribute 'get'的错误

import json
import requests
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
data={'form':'news_webapp',
'pd':'webapp',
'os':'android',
'ver':6,
'category_name':'汽车',
'category_id':'',
'action':0,
'display_time':1559091497963,
'mid':'110B561D1D1B9ABD25614852D9CA61CD:FG=1'}
urls='https://news.baidu.com/sn/api/feed_channellist'
res=requests.post(urls,data=data,headers=headers)

js=json.loads(res.text)

if data and 'data' in js.keys():
for link in js.get('data'):

    print link.get('news')
  • 写回答

2条回答 默认 最新

  • 战渣渣 2019-05-30 17:23
    关注

    我刚试了一下,你的代码没有问题。

    出现这个问题的情况应该是你爬取的网站对你做了限制。

    你这个处理只是正确的处理情况,就是爬取文章返回的是正确数据时,也就是说你第一次请求时返回的数据是正确的,你这个处理没有问题

    但是你再次请求时,网站对你做了反爬虫处理,所以返回的数据是为空了,所以你再对一个空数据做做get请求时,就是错误数据了

    1. 你的代码对link做验证,如果返回的是字典,按照这种方式处理。如果不是的需要再次换IP请求数据等。
    2. 对反爬虫处理,使用代理IP等方式。
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 聚类分析或者python进行数据分析
  • ¥15 如何用visual studio code实现html页面
  • ¥15 逻辑谓词和消解原理的运用
  • ¥15 三菱伺服电机按启动按钮有使能但不动作
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?