python/小说/url

爬取URL文本状态码200，局部404啊咋整！浏览器访问显示完整文本，python进去就不行！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-04-08 21:44
关注
晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

针对Python爬取URL文本状态码200，但局部出现404的情况，常见解决方案如下：

修改请求头信息：有些网站会对爬虫进行限制，因此可以通过修改请求头信息来模拟浏览器，以避免被封禁或限制。

添加Cookie：某些网站需要登录后才能访问，需要利用Cookie模拟登录状态。在Python中可以使用requests库的session对象来添加Cookie信息。

使用代理IP：通过使用代理IP轮流访问目标网站，以避免IP被封禁。

添加重试机制：在遇到局部404时，可以通过添加重试机制来重新访问该页面，以获取完整的文本信息。

修改后的Python代码示例：

import requests url = "https://example.com/page" # 设置请求头信息和Cookie headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3", "Cookie": "name=value" } # 添加代理IP proxies = {"http": "http://127.0.0.1:1080", "https": "https://127.0.0.1:1080"} # 添加重试机制 retry_times = 3 count = 0 while count < retry_times: try: response = requests.get(url, headers=headers, proxies=proxies) if response.status_code == 200: # 提取文本信息 text = response.text print(text) break elif response.status_code == 404: # 页面不存在，抛出异常 raise requests.exceptions.RequestException except requests.exceptions.RequestException as e: count += 1 if count >= retry_times: print("访问页面失败！")

注意：以上解决方案仅供参考，具体需要根据实际情况选择合适的处理方式。另外，爬虫应当遵守网站的相关规定和法律法规。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python实现对一个完整url进行分割的方法
2021-01-20 05:07

本文实例讲述了python实现对一个完整url进行分割的方法。分享给大家供大家参考。具体分析如下： python对一个完整的url进行分割，将url分割成单独的部分，包括协议、域名、端口、路径、参数等等 import urlparse ...
Python实现从URL地址提取文件名的方法
2020-12-23 19:43

本文实例讲述了Python实现从URL地址提取文件名的方法。分享给大家供大家参考。具体分析如下：如：地址为 //www.jb51.net/images/logo.gif 要想从该地址提取logo.gif，只需要一句代码就可以搞定 import os url = '/...
python 获取url中的参数列表实例
2020-12-25 05:02

Python的urlparse有对url的解析，从而获得url中的参数列表 import urlparse urldata = "http://en.wikipedia.org/w/api.php?action=query&ctitle=FA" result = urlparse.urlparse(urldata) print result print ...
python获取url的返回信息方法
2021-01-20 07:00

/usr/bin/env python # -*- coding: utf-8 -*- import os import sys import urllib import urllib2 import string #########start 获取url的返回信息############ def jwkj_url_postget(url,vlaues): data = ...
Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略
2022-09-14 00:43

一个处女座的程序猿的博客 Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略目录 Python语言的简介 Python语言IDE的...
python对url格式解析的方法
2021-01-20 05:04

本文实例讲述了python对url格式解析的方法。分享给大家供大家参考。具体分析如下： python针对url格式的解析，可根据指定的完整URL解析出url地址的各个部分 from urlparse import urlparse url_str = ...
华为python语言通用编程规范模块导入顺序_Python编程规范
2021-02-11 20:34

空气安全讲堂的博客本节内容如下：代码块大括号分号行长度括号缩进空行空格类导入格式语句命令代码块大括号代码使用缩进的方式，而不是大括号是Python语言规范中的一大特点，如果你有其他语言基础的话，可能需要适应一下：分号不要在行...
python+selenium打印当前页面的titl和url方法
2020-12-23 21:46

dr.title //获取页面title dr.current_url // 获取页面url 代码如下： from selenium import webdriver ...以上这篇python+selenium打印当前页面的titl和url方法就是小编分享给大家的全部内容了，希望能给大
详解使用Python下载文件的几种方法
2020-12-31 08:42

在使用Python进行数据抓取的时候，有时候需要保持文件或图片等，在Python中可以有多种方式实现。今天就一起来学习下。 urllib.request 主要使用的是urlretrieve方法，该方法处理待淘汰的方法，不建议使用。 import...
2025华为OD机考机试最新A卷：真题目录 + 考点说明（Python/JS/C/C++）
2025-05-08 08:06

哪吒的博客我觉得准备机考前的第一件事是选择一门合适的编程语言，华为机考对编程语言是没有限定的，你可以选择自己最喜欢的编程语言。考虑到大部分华为OD的应聘者都是技术基础较为薄弱甚至非科班的同学，我还是满建议大家...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月8日

python/小说/url

3条回答 默认 最新

问题事件

3条回答默认最新