以下代码如何获取不返回403响应码且获取相关数据？

使用以下代码，会一直返回403响应码，代码中的登录部分已经涂抹掉了，而且代码中代理ip应该已经过期不能使用了。
解决问题时，可以使用1-2个代理ip来模拟就OK。
希望大佬能给出一个运行OK的代码，并指出下面代码的问题。
使用的是pycharm,python3.7
问题代码如下：

import requests
from lxml import etree
import time
import csv
import re

sess = requests.session()
headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"
}


def ip_list(url):
    resp = requests.get(url)
    json = resp.json()
    # print(json)
    datas = json['data']
    ip_list = []
    for data in datas:
        ip = data['ip']
        port = data['port']
        new_ip = 'https://' + ip + ':' + str(port)
        ip_list.append(new_ip)
    print(ip_list)
    return ip_list

def get_token(url):
    resp = sess.get(url, headers= headers)
    _token = re.search('<meta name="csrf-token" content="(.*?)">', resp.text).group(1)
    return _token

def login(token,url):
    data = {
        "_token": token,
        "email": "xxxxxxxxxx",
        "password": "xxxxxxxx",
        "remember": "on"
    }
    resp = sess.post(url, headers= headers, data= data)
    print(resp.status_code)



def get_data(ip_list,fp):
    list1 = []
    for i in range(400):
        url = 'http://glidedsky.com/level/web/crawler-ip-block-1?page={}'.format(str(i+1))
        proxy = {'https': ip_list[0]}
        print(proxy)
        resp = sess.get(url, headers=headers,proxies= proxy)
        print(resp.status_code)
        html = etree.HTML(resp.text)
        fp.write(resp.text)
        ip_list.remove(ip_list[0])
        # print(etree.tostring(html))
        divs = html.xpath("//div[@class='card-body']//div[@class='col-md-1']//text()")
        for div in divs:
            a = div.strip()
            a = int(a)
            list1.append(a)
        print(list1)
        time.sleep(1)
    print(list1)
    sum_code = sum(list1)
    print(sum_code)
    return sum_code

def main():
    ip_list1 = ip_list('http://webapi.http.zhimacangku.com/getip?num=400&type=2&pro=&city=0&yys=0&port=11&time=1&ts=1&ys=0&cs=0&lb=1&sb=0&pb=45&mr=1&regions=')
    print(ip_list1)
    url = 'http://glidedsky.com/login'
    token = get_token(url)
    login(token,url)
    sum_code = get_data(ip_list1,fp)
    print(sum_code)

if __name__ == '__main__':
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-赖老师（软件之家） 2021-04-11 06:52
关注
403是没有访问权限，是不是控制了权限

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
Python如何用requests的post方法获取在线识别二维码网址返回的数据？ python
2020-12-27 08:25

回答 2 已采纳 https://market.aliyun.com/products/57126001/cmapi021204.html?#sku=yuncode1520400000 用这个解码API
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
python获取状态码_Python 如何获取接口返回的http状态码
2020-12-28 18:42

weixin_40001309的博客使用request 模块得到返回值，然后再利用status_code属性获取http响应的状态码。示例代码：import requestsimport jsonurl = 'http://dev.xxx.com/loginAccount'data = {"account": "companyG", "adminUserCode": ...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
Python获取HTML页面代码和直接访问的代码不一样问题 python 后端
2021-09-12 10:56

回答 1 已采纳你直接请求一个地址拿到的仅仅是这个地址的结果。浏览器访问这个页面，你可以看看同时请求了多少地址。百度搜索肯定会有用户行为分析。识别爬虫后，就给你错误的资源，或者不给你资源。你想想，如果这么容易让你拿到
（五）python网络爬虫（理论+实战）——获取响应数据
2023-01-03 11:38

阳光宅男xxb的博客本节主要是介绍爬虫基本流程第二步，获取响响应数据，学习后需要掌握响应数据通过哪个属性值获取，遇到乱码情况，怎么去设置编码格式。
VScode中Python代码不高亮显示？？ python vscode 有问必答
2022-04-10 22:05

回答 2 已采纳安装这两个插件然后设置颜色主题或者你也可以安装其它你喜欢的然后颜色主题插件
python kmeans聚类后如何获取到分类的数据？ kmeans python 有问必答聚类
2022-01-16 22:16

回答 2 已采纳 # 整理聚类结果 listName = dfData['地区'].tolist() # 将 dfData 的首列 '地区' 转换为 listName dictCluster
python获取传感器数据 python tcp/ip 网络协议
2022-07-16 21:57

回答 1 已采纳什么类型的传感器
求助python爬取b站投稿视频响应码-352 风控校验失败？
2023-12-04 15:27

再来一碗www的博客代码之前爬都是正确的，为什么现在爬不了了？
在Python中怎么获取HTML表单提交后的数据 flask python
2022-04-22 06:25

回答 1 已采纳这要写一个完整的后端接口接受数据，可以使用fastapi或者flask快速搭建
python selenium chrome获取每个请求内容_selenium 获取请求返回内容的解决方案
2020-12-03 08:38

weixin_39735166的博客提出问题之前我的一篇博客说的是怎么利用 ...”，这时候我们去看网络请求数据，结果状态码全部都是 200，没有其它信息，这压根没法定位不了问题。这就说明：网络出现异常的时候，仅靠状态码是不够的。我们最好...
python 响应代码_Python3 response响应常用的方法
2021-02-09 10:05

鱼笺的博客 Python3 response响应常用的方法例子一：获取HTTP请求响应码import urllib.requestheader={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 ...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

以下代码如何获取不返回403响应码且获取相关数据？

4条回答 默认 最新

悬赏问题

4条回答默认最新