python抓取国外网站时出现403错误

用python来抓取国外网站时出现403错误

代码如下

import requests
from bs4 import BeautifulSoup

url = 'https://7net.omni7.jp/search/?keyword=%E3%83%8F%E3%82%A4%E3%82%AD%E3%83%A5%E3%83%BC%EF%BC%81%EF%BC%81%E3%82%B9%E3%82%AF%E3%82%A8%E3%82%A2%E7%BC%B6%E3%83%90%E3%83%83%E3%82%B8'
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'ja,en-US;q=0.9,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'Sec-Ch-Ua-Mobile': '?0',
    'Sec-Ch-Ua-Platform': '"Windows"',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.31',
}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    print('页面请求成功！')
    print(response.status_code)
    print(response.url)
    soup = BeautifulSoup(response.content, 'html.parser')
    print(soup)
elif response.status_code == 302:
    redirect_url = response.headers.get('Location')
    print('页面已重定向到新的URL地址：', redirect_url)
else:
    print('页面请求失败，状态码为：', response.status_code)

如果在header中加入cookie时，可以正常抓取到数据，但是不能够每次抓数据的时候我都用浏览器获取到cookie，再写入到headers里面来抓取吧，这样就失去了爬虫的意义。

我的想法是通过访问某个页面来获取到session，再带session来访问我要抓取的页面来抓取数据。

我也尝试过下面的代码，但是还是出现403错误，

import time

import requests
from bs4 import BeautifulSoup

# 创建一个会话
session = requests.Session()

url_top = 'https://7net.omni7.jp/'
url = 'https://7net.omni7.jp/search/?keyword=%E3%83%8F%E3%82%A4%E3%82%AD%E3%83%A5%E3%83%BC%EF%BC%81%EF%BC%81%E3%82%B9%E3%82%AF%E3%82%A8%E3%82%A2%E7%BC%B6%E3%83%90%E3%83%83%E3%82%B8'
headers = {   
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'ja,en-US;q=0.9,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'Sec-Ch-Ua': '"Google Chrome";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
    'Sec-Ch-Ua-Mobile': '?0',
    'Sec-Ch-Ua-Platform': '"Windows"',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.31',
}
response = session.get(url_top, headers=headers)
if response.status_code == 200:
    print('页面请求成功！')
    print(response.status_code)
    print(response.url)
    time.sleep(3)

    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        print('页面请求成功！')
        print(response.status_code)
        print(response.url)
        soup = BeautifulSoup(response.content, 'html.parser')
        print(soup)
    elif response.status_code == 302:
        redirect_url = response.headers.get('Location')
        print('页面已重定向到新的URL地址：', redirect_url)
    else:
        print('页面请求失败，状态码为：', response.status_code)

elif response.status_code == 302:
    redirect_url = response.headers.get('Location')
    print('页面已重定向到新的URL地址：', redirect_url)
else:
    print('页面请求失败，状态码为：', response.status_code)

运行结果为

页面请求成功！
200
https://7net.omni7.jp/top
页面请求失败，状态码为： 403

Process finished with exit code 0

希望得到大家的帮助，谢谢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2023-09-17 19:59
关注
引用皆我百晓生小程序回复内容作答：
403错误表示服务器拒绝了你的请求。在这种情况下，服务器认为你的请求是非法的或被禁止的，并且不提供所需的数据。

有几种原因可能导致403错误：

缺少必要的认证信息：某些网站要求进行身份验证或使用API密钥来访问其内容。如果你没有提供正确的认证信息，服务器可能会拒绝你的请求。

IP被封禁：有些网站可能会封禁特定的IP地址，如果你的IP地址被封禁，你将无法访问该网站。

爬取频率过高：如果你的爬虫程序过于频繁地请求网站，服务器可能会将你的请求视为DDoS攻击或资源滥用。

为了解决这个问题，你可以尝试以下几个步骤：

检查是否需要提供认证信息：查看网站的API文档或用户协议，确定是否需要提供认证信息，如API密钥、用户名和密码等。如果需要，你可以将认证信息添加到请求的header中，以便正确访问网站。

降低爬取频率：如果你的爬虫请求过于频繁，可以尝试减少请求的频率，增加请求之间的间隔时间，以避免被服务器封禁。

使用代理IP：如果你的IP地址已经被封禁，你可以尝试使用代理IP来改变你的访问来源。代理IP可以帮助你隐藏真实的IP地址，从而绕过封禁。

联系网站管理员：如果以上方法都无法解决问题，你可以尝试联系网站的管理员或技术支持团队，了解为什么你的请求被拒绝，并寻求他们的帮助。

注意：在进行Web爬虫时，请确保你的行为符合网站的使用条款和法律法规，并尊重网站所有者的权益。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略
2022-09-14 00:43

一个处女座的程序猿的博客 Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略目录 Python语言的简介 Python语言IDE的...
每天七分钟和我学Python：Python语言
2021-03-22 14:41

HCIE之家的博客 Python是一门编程语言，在创立之初作者因为喜欢一部连续剧所以给它取名为Python，它和其他编程语言一样是为了帮助我们更好的与计算机进行沟通和交流。它的创建使命就是作者想让它成为一款功能强大，而又易学易用，...
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
001基于Python网站爬虫的设计与实现
2024-05-23 14:48

qq_1039692211的博客 1.1　课题背景网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的...
Python编程基础01：搭建Python开发环境
2020-11-02 16:26

酒城译痴无心剑的博客进一步实践了PyCharm和Anaconda两大主流集成开发环境，利用PyCharm进行项目管理与调试，并通过Anaconda的Spyder、Jupyter Notebook和IPython实现了科学计算与交互式编程，体验了其丰富的库集成优势。
量化投资python和r语言比较_R语言量化投资常用包总结
2020-12-24 22:18

weixin_39818631的博客原标题：R语言量化投资常用包总结前言总是被很多的人...每个领域，每种编程语言都用推动它前进的人，跟上牛人的脚步，你慢慢地也会变牛。目录为什么用R语言做量化投资？常用量化投资工具包1. 为什么用R语言做量化投...
使用python爬虫爬取热门文章分析最新技术趋势
2024-10-29 17:57

I'mAlex的博客使用python爬虫分析最新技术趋势一、爬取目标二、代码环境 2.1 编程语言 2.2 三方库 2.3 环境配置三、代码实战 3.1 接口分析 3.2 接口参数分析接口地址请求方法描述请求参数响应示例请求示例响应错误处理...
国外的大学图书馆也像国内的一样吗？用Python脚本抓取期刊的主题标题！
2024-05-06 21:25

2401_84538544的博客不知道你们用的什么环境，我...Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
Python入门教程(全网最详细)！零基础入门到精通，从看这一篇开始！
2025-05-29 14:46

techvoyager123的博客根据Stack Overflow调查，Python已经连续五年蝉联"最想学习的编程语言"榜首。为什么这么火？让我用三个感叹号告诉你：语法简单到哭！！！看看这个对比： # Python打印"Hello World" print("Hello World") # Java...
用rpa必须会用python语言_几步教你用 Python 制作一个 RPA 机器人！
2020-12-01 10:07

weixin_39743369的博客那么我们能不能通过机器去自动完成这些固定流程且繁琐的工作呢？答案是肯定的。现阶段，我们可以通过引入 RPA 来实现整个流程的打通。什么是 RPARPA 是机器人流程自动化的...RPA 工具选型RPA 其实出现的时间不短，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月17日

python抓取国外网站时出现403错误

2条回答 默认 最新

问题事件

2条回答默认最新