weixin_44668783 2019-05-29 10:16 采纳率: 100%
浏览 2137
已采纳

Python爬取网页用json解析时出现'unicode' object has no attribute 'get'的错误

import json
import requests
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
data={'form':'news_webapp',
'pd':'webapp',
'os':'android',
'ver':6,
'category_name':'汽车',
'category_id':'',
'action':0,
'display_time':1559091497963,
'mid':'110B561D1D1B9ABD25614852D9CA61CD:FG=1'}
urls='https://news.baidu.com/sn/api/feed_channellist'
res=requests.post(urls,data=data,headers=headers)

js=json.loads(res.text)

if data and 'data' in js.keys():
for link in js.get('data'):

    print link.get('news')
  • 写回答

2条回答 默认 最新

  • 战渣渣 2019-05-30 17:23
    关注

    我刚试了一下,你的代码没有问题。

    出现这个问题的情况应该是你爬取的网站对你做了限制。

    你这个处理只是正确的处理情况,就是爬取文章返回的是正确数据时,也就是说你第一次请求时返回的数据是正确的,你这个处理没有问题

    但是你再次请求时,网站对你做了反爬虫处理,所以返回的数据是为空了,所以你再对一个空数据做做get请求时,就是错误数据了

    1. 你的代码对link做验证,如果返回的是字典,按照这种方式处理。如果不是的需要再次换IP请求数据等。
    2. 对反爬虫处理,使用代理IP等方式。
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 Android Studio webview 的使用问题, 播放器横屏全屏
  • ¥15 删掉jdk后重新下载,Java web所需要的eclipse无法使用
  • ¥15 uniapp正式环境中通过webapi将本地数据推送到设备出现的跨域问题
  • ¥15 xui建立节点,显示错误
  • ¥15 关于#单片机#的问题:开始、复位、十进制的功能可以实现,但是切换八进制的功能无法实现(按下按键也没有效果),把初始状态调成八进制,也是八进制可以实现但是切换到十进制不行(相关搜索:汇编语言|计数器)
  • ¥15 VINS-Mono或Fusion中feature_manager中estimated_depth是特征的深度还是逆深度?
  • ¥15 谷歌浏览器如何备份抖音网页数据
  • ¥15 分别有什么商家下面需要非常多的骑手为它工作?
  • ¥15 开机logo到Qt应用起来会黑屏将近两秒时间
  • ¥15 vfp工程项目管理系统的业务流程图