HTTPError已经通过try...except...进行异常处理，仍报HTTPError

爬取某网站搜索结果，爬取结果：分一级页面为搜索文章标题 和一级页面各搜索结果对应的二级页面文章内容。

处理过程：一级页面成功获取；二级页面有一些不能成功获取的，但是对不能成功获取的二级页面文章，将其二级页面的url放入一个list以备后续研究。通过 try

获取二级页面url

except HTTPError

另一种方法获取二级页面url

except Exception

失败的url放入list

问题：明明已经声明了在HTTPError的情况的处理流程，但是仍然报错HTTPError

请各路好汉指导，好人一生平安！

import ssl # 防止验证报错
ssl._create_default_https_context = ssl._create_unverified_context
import urllib.request as ur
import urllib.parse as up
import requests
import re,json
import lxml.etree as le
import urllib
from urllib.error import HTTPError
import pymongo

cookies = {
    'JSESSIONID': '849E8C6BD918EA04C6143AA6C8E344FD',
    '__jsluid_s': '55e35824b3517a59c43c1b750043c288',
    'cookie_www': '36802747',
    'Hm_lvt_3b83938a8721dadef0b185225769572a': '1614777887,1614821020,1614873247,1614910666',
    'Hm_lpvt_3b83938a8721dadef0b185225769572a': '1614934564',
}

headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '"Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"',
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'X-Requested-With': 'XMLHttpRequest',
    'sec-ch-ua-mobile': '?0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Origin': 'https://www.cqggzy.com',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Dest': 'empty',
    'Referer': 'https://www.cqggzy.com/xxhz/014001/014001001/zbggjyxx-page.html?keyword=%E6%95%B0%E6%8D%AE',
    'Accept-Language': 'zh-CN,zh;q=0.9,en-GB;q=0.8,en;q=0.7',
}

data = '{"token":"","pn":36,"rn":18,"sdt":"","edt":"","wd":" ","inc_wd":"","exc_wd":"","fields":"title","cnum":"001","sort":"{\\"istop\\":0,\\"ordernum\\":0,\\"webdate\\":0,\\"rowid\\":0}","ssort":"title","cl":200,"terminal":"","condition":[{"fieldName":"categorynum","equal":"014001001","notEqual":null,"equalList":null,"notEqualList":null,"isLike":true,"likeType":2},{"fieldName":"titlenew","equal":"\u6570\u636E","notEqual":null,"equalList":null,"notEqualList":null,"isLike":true,"likeType":0}],"time":null,"highlights":"title","statistics":null,"unionCondition":[],"accuracy":"","noParticiple":"0","searchRange":null,"isBusiness":"1"}'.encode('utf-8')

# 把data, cookies, headers, url放入request.post() 以获取一级页面的response
response = requests.post('https://www.cqggzy.com/interface/rest/inteligentSearch/getFullTextData', headers=headers, cookies=cookies, data=data)
print(response.json()) # 打印查看获取内容；根据结果，此处成功获取
title_results = response.json() # 把response.json复制给变量以方便后面爬取二级页面使用

http_exists = True # 设置一个bool, 以方便判断二级页面的url是否成功获取
error_html = [] # 如果二级页面的url两次都没成功获取，则把第二次打开失败的url放进一个list,以便后续研究
# search_data = {}
# client = pymongo.MongoClient()
# db = client.get_database('public_resource')  # db = client.db3
# c = db.get_collection('search_data')
for piece in title_results['result']['records']: # 对一级页面获取的结果，遍历每个结果，提取信息以组建每个结果对应的二级页面的url
    # search_data = {}
    print(piece['title']) # 每次遍历查看一级页面的标题
    try:
        url_date = re.findall('.{10}',piece['pubinwebdate'])[0]
        url_date_revised = url_date.replace('-','')
        print(url_date_revised)
        href = 'https://www.cqggzy.com/xxhz/014001/014001001/'+piece['categorynum']+'/'+url_date_revised+'/'+piece['infoid']+'.html'
        print(href)
        req = ur.Request(
            url = href,
            headers = {
                'User-Agent': 'Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.95 Safari/537.36 OPR/26.0.html.1656.60',
            }
        )
        content1 = ur.urlopen(req).read() # 打开组建的url
    except urllib.error.HTTPError: # 如果组建的url不能成功打开，换一种方式组建url
        url_date = re.findall('.{10}',piece['infodate'])[0]
        url_date_revised = url_date.replace('-','')
        print(url_date_revised)
        href = 'https://www.cqggzy.com/xxhz/014001/014001001/'+piece['categorynum']+'/'+url_date_revised+'/'+piece['infoid']+'.html'
        print(href)
        req = ur.Request(
            url = href,
            headers = {
                'User-Agent': 'Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.95 Safari/537.36 OPR/26.0.html.1656.60',
            }
        )
        content1 = ur.urlopen(req).read()
    except Exception: # 如果组建的url还不能成功打开，把此时的url放进一个列表
        error_html.append(piece['title'])
        http_exists = False # 用bool变量表示url获取失败

    if http_exists == True: # url获取成功，才进一步获取二级页面的内容
        contentx = le.HTML(content1)
        content = contentx.xpath("//div[contains(@class,'epoint-article-content')]//text()")
        content = " ".join(content)
        content = content.replace('\t','')
        content = content.replace('\r', '')
        content = content.replace('\n', '')
        content = content.replace('                   ','')
        # c.insert_one(search_data)
        # search_data[piece['title']] = content
    http_exists = True # 每次遍历最后把 url变量设置为True
print(error_html) # 查看失败的urlr的列表

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-07 11:26
关注
一般是try...except...finally...异常处理。你将第一个和第二个except合并，用if ... else...试试看。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

HTTPError已经通过try...except...进行异常处理，仍报HTTPError python 数据挖掘问答团队
2021-03-07 01:59

回答 1 已采纳一般是try...except...finally...异常处理。你将第一个和第二个except合并，用if ... else...试试看。
python 如何解决无法使用代理版IP的问题，requests.exceptions.ProxyError: HTTPConnectionPool python 有问必答
2021-11-11 20:19

回答 1 已采纳这个是代理IP失效问题，你可以用retry模块去装饰你的函数，只要报错，程序会重新执行这个函数，重新执行之前去掉这个代理IP就行了
selenium和PhantomJS的配合使用：AttributeError: module 'selenium.webdriver' has no attribute 'PhantomJS' python selenium
2021-12-25 18:39

回答 4 已采纳如果一定要用 PhantomJS ，那要考虑卸载当前 Selenium ，降档到3.141.0 或者以下版本去用如果只是为了无界面，也可以考虑用 chorme , 用无界面模式。
Python的try... excep异常捕捉机制
2019-04-18 15:03

点亮～黑夜的博客 except 异常捕捉1、已知错误类型（例如下面已知列表索引错误类型`IndexError`）2、未知异常的类型三、try ... except ... else ... finally 使用一、没有加入异常捕捉机制 test_list = [1, 2] print(test_list[.....
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
No module named 'numpy.typing' python 个人开发
2022-05-22 09:13

回答 2 已采纳没有安装 numpy 库，从清华镜像站上下载安装速度比较快速，不容易超时报错： pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simp
爬虫代理池中proxypool.方法/函数报错 python 爬虫
2021-08-19 19:34

回答 1 已采纳看老催的书，我们就是朋友。我是看他的视频入门的。那个代理池我改过，你这个属于模块导入错误，找一下就好了，有帮助记得采纳哦
Python异常处理语句try...except...else...finally...
2022-02-28 01:06

公子聪的博客 python异常处理语句try...except...else...finally...，及finally语句的作用
python报错：requests.exceptions.ConnectionError: ('Connection aborted.', OSError("(10060, 'WSAETIMEDOUT')")) python 开发语言
2020-03-02 19:59

回答 2 已采纳 10060 WSAETIMEDOUT 是请求超时了，请确认 res = requests.get(url) 这一句请求的地址是否拼接正确，如果是正确的，那就设置超时时间大一点吧。
requests.exceptions.InvalidURL: Failed to parse: <Response [200]> python 有问必答爬虫
2021-08-26 09:47

回答 2 已采纳 url_get = requests.get(" http://music.163.com/song/media/outer/url?id%22
为什么个代码title.h1 总是返回None python 有问必答
2021-05-07 22:02

回答 4 已采纳？？正常情况缺return 而且你这个代码没有输出打印函数吧，要的是输出title？ from urllib.request import urlopen from urllib.err
Python爬虫 urllib.error.HTTPError异常处理
2021-03-03 19:10

平人的进步日常的博客 import urllib.request import urllib.error ...try: resp = urllib.request.urlopen...except urllib.error.HTTPError as e: print("状态码", e.code) print("原因", e.reason) print("请求头", e.headers) ...
pandas\__init__.py报错 python
2021-03-12 11:51

回答 1 已采纳【简单叙述】你装的是python3.9，我也是原来装的python3.9，在import pandas时，就没有用，都出现你这个问题。【解决办法】卸载python3.9，装回python3.7，就不
Python 异常处理 Python 基础教程 try..except
2016-05-03 14:17

GarfieldEr007的博客 异常处理在之前的学习中我们一直没有接触过。哦对，我们甚至还不知道怎么向程序输入一段字符串。那么我们在这里提供一个小例子。在命令行中，我们输入 s = raw_input('Enter something --> ') 好...
Python爬虫（三）——URLError和HTTPError异常处理
2017-11-01 12:07

LinJie98的博客既然异常处理就会使用到try/except，下面简单介绍try/except捕获异常二、try/except异常捕获使用try/except来捕捉异常检测try语句块中的错误，从而让except语句捕获异常信息并且处理，当然如果不想在异常发生使结束...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

HTTPError已经通过try...except...进行异常处理，仍报HTTPError

1条回答 默认 最新

悬赏问题

1条回答默认最新