bsxz_94 2016-04-17 16:32 采纳率: 0%
浏览 11263

python爬虫,遇到403 forbidden,求助。

 # -*- coding: utf-8 -*-
import re
import sys
import requests
reload(sys)
sys.setdefaultencoding("utf-8")

if __name__ == '__main__':
    url = 'https://movie.douban.com/subject/1433330/photos?type=W'
    # 获取网页源码
    html = requests.get(url)

    # 抓每个图片链接
    pic_url = re.findall('<img src="https://(.*?)" />', html.text, re.S)  #此链接为预览链接
    i = 0
    for each in pic_url:
        raw = re.sub('thumb','raw',each,re.S)    //将预览链接中的thumb替换成raw,便成了高清图片链接
        print 'now download..'+'https://'+raw
        pic = requests.get('https://'+raw)
        f = open('hp\\'+str(i)+'.jpg','wb')
        f.write(pic.content)
        f.close()
        i += 1

刚开始学爬虫,爬豆瓣电影的壁纸练手。现在程序可以跑下来,不返回错,但是下载的图片是失败的,response 返回 403 forbidden。

我这样想问题的原因对吗?

因为我想下高清的,但是豆瓣查看高清壁纸前,需要登录,但我的程序是没有登录的,所以出现403是吗?所以我得模拟登陆是吗?

刚注册,木有悬赏币。。谢谢

  • 写回答

5条回答

  • oyljerry 2016-04-18 03:35
    关注

    403就是告诉你没有权限,这个服务器做了判断,需要对用户身份做验证,一般会通过cookie等,所以你没有登陆就没办法访问。

    评论

报告相同问题?

悬赏问题

  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
  • ¥50 成都蓉城足球俱乐部小程序抢票
  • ¥15 yolov7训练自己的数据集
  • ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
  • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
  • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)