python requests 在linux服务器获取数据返回403，但，本地可以获取

最近学习python爬虫，遇到个不太好解决的问题，
望好心耐心解答，
以下代码

import requests
import time
import re
from bs4 import BeautifulSoup

v = input("URL:")


head = {
    'method': 'GET',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'none',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-dest': 'document',
    'accept-language': 'zh-CN,zh;q=0.9',
    'connection': 'close'
}

requestCoding = {}


def getPage(url, start):
     try:
         resp = requests.get(url, headers=head, timeout=(5, 10))
         resp.encoding = getEncoding(resp)
         if resp.status_code == 200:
            html = BeautifulSoup(resp.text, 'html.parser')
            page = html.find('head')
            print(abs(round(start - time.time(), 2)), page)
         else:
            print(abs(round(start - time.time(), 2)), resp.status_code)
     except Exception as message:
            print('requests Error:', message, '耗时：', abs(round(start - time.time(), 2)), )


def getEncoding(resp):
    try:
        appCode = resp.apparent_encoding
        htmlCode = requests.utils.get_encodings_from_content(resp.text)[0]
        if appCode:
            requestCoding['appCode'] = appCode
            requestCoding['htmlCode'] = htmlCode
            if appCode != htmlCode:
                iso = re.search('ISO-8859', appCode, re.IGNORECASE)
                win = re.search('Windows', appCode, re.IGNORECASE)
                if iso:
                    return 'GBK'
                if win:
                    return 'utf-8'
                else:
                    return appCode
        else:
            return htmlCode
    except:
        requestCoding['manualSet'] = 'utf-8'
        return requestCoding['manualSet']


if __name__ == '__main__':
    main_start = time.time()
    print(getPage(v, main_start))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-08-22 21:27
关注
可能是requests伪造的头部信息不全。
要在headers中添加抓包时的请求头参数

比如

url = "https://xxxxxxxxxxx" headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36', 'Host' : 'xxxxxxxxxxx', 'Origin' : 'xxxxxxxxxxxxx', 'Referer' : 'xxxxxxxxxxxxxx', 'Cookie': 'xxxxxxxxxxxxxxxx' } res = requests.get(url,headers=headers)

其中请求头的参数 'User-Agent','Host','Origin', 'Referer','Cookie'可以在浏览器的f12控制台的Network中看到
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

解决本地Linux使用python2将数据post到本地django服务器
2021-01-20 03:13

我想要在一个本地Linux机器上面抓取一些数据（脚本使用python2实现），并且把抓取到的数据通过requests.post发送到我的django服务器上面。一开始遇到的问题：因为django是默认打开127.0.0.1:8000这个url的，所以一...
Linux离线安装Python第三方库Requests
2022-08-03 17:16

python setup.py install tar -zxvf pip-19.2.2.tar.gz cd pip-19.2.2 python setup.py install # CA 认证模块 pip install certifi-2019.9.11-py2.py3-none-any.whl # 字符编码检测模块 pip install chardet-...
win与linux系统中python requests 安装
2020-09-21 11:59

### Python Requests 库在Windows与Linux系统的安装及基础使用指南 #### 一、Requests库简介 Requests 是一个用于Python的简单、优雅且易于使用的HTTP库。它提供了比Python内置的`urllib`和`urllib2`更高级的功能，...
UWY-soundings:python脚本从怀俄明大学服务器获取多天的大气探测数据
2021-04-03 04:24

**UWY-soundings: Python 脚本获取怀俄明大学大气探测数据详解** 在信息技术领域，数据是至关重要的资源，...这个过程不仅展示了Python在数据获取和分析中的强大能力，还强调了良好的编程实践和数据处理流程的重要性。
Python requests模块实例用法
2020-09-19 15:16

如果服务器返回 JSON 格式的数据，可以直接使用 `.json()` 方法解析。 ```python import json r = requests.get('https://github.com/timeline.json') print(r.json()) ``` ##### 6. 自定义请求头可以通过 `...
python数据接口获取数据_python 调用API接口获取和解析 Json数据
2021-02-10 14:54

李轶林的博客任务背景：调用API接口数据，抽取我们所需类型的数据，并写入指定mysql数据库。先从宏观上看这个任务，并对任务进行分解：step1：需要学习python...从功能上看，该数据获取程序可以分为3个方法，即step1对应方法requ...
Python开发的HTTP库requests详解
2020-09-21 04:33

此外，我们还获取了服务器返回的Cookies。 ### 其他HTTP请求方法 Requests不仅限于GET和POST，还支持以下HTTP请求方法： - `requests.put(url, data=None, **kwargs)` - `requests.head(url, **kwargs)` - `...
Python Requests安装与简单运用
2020-09-21 17:09

安装完成后，可以在Python环境中尝试导入requests模块，如果没有报错，说明安装成功。 2. 使用Requests进行HTTP请求： - GET请求：发送GET请求非常简单，例如获取指定URL的内容： ```python import requests ...
python requests.get无法取出网页_Python requests获取网页常用方法解析
2020-12-23 06:48

weixin_39558804的博客这篇文章主要介绍了Python requests获取网页常用方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下主要记录使用 requests 模块获取网页源码的方法class ...
CentOS/Linux Python 2.7 离线安装 Requests 库解决离线安装问题。
2025-01-26 10:35

Asongsong_6的博客在内网或无网络连接的环境中，Python 开发者经常需要离线安装第三方库。使用 Python 2.7 版本离线安装 Requests 库。Requests 是一个简单易用的 HTTP 库，用于发送各种 HTTP 请求。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月22日