weixin_44668783 2019-05-29 10:16 采纳率: 100%
浏览 2126
已采纳

Python爬取网页用json解析时出现'unicode' object has no attribute 'get'的错误

import json
import requests
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
data={'form':'news_webapp',
'pd':'webapp',
'os':'android',
'ver':6,
'category_name':'汽车',
'category_id':'',
'action':0,
'display_time':1559091497963,
'mid':'110B561D1D1B9ABD25614852D9CA61CD:FG=1'}
urls='https://news.baidu.com/sn/api/feed_channellist'
res=requests.post(urls,data=data,headers=headers)

js=json.loads(res.text)

if data and 'data' in js.keys():
for link in js.get('data'):

    print link.get('news')
  • 写回答

2条回答 默认 最新

  • 战渣渣 2019-05-30 17:23
    关注

    我刚试了一下,你的代码没有问题。

    出现这个问题的情况应该是你爬取的网站对你做了限制。

    你这个处理只是正确的处理情况,就是爬取文章返回的是正确数据时,也就是说你第一次请求时返回的数据是正确的,你这个处理没有问题

    但是你再次请求时,网站对你做了反爬虫处理,所以返回的数据是为空了,所以你再对一个空数据做做get请求时,就是错误数据了

    1. 你的代码对link做验证,如果返回的是字典,按照这种方式处理。如果不是的需要再次换IP请求数据等。
    2. 对反爬虫处理,使用代理IP等方式。
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?