使用爬虫解析网页下载文件失败

问题遇到的现象和发生背景、

在使用Python进行网络爬虫下载部分资源的时候，发现有些网的附件无法解析出ip地址。

附件在解析元素时，显示如下，

问题相关代码，请勿粘贴截图

    url = ‘http://www.ccgp.gov.cn/cggg/dfgg/qtgg/202207/t20220715_18271681.htm’
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    main_info = soup.find('div', class_='vF_detail_content')
    att_info =   main_info.find_all('table')
    if not att_info:  # 没有附件，返回真
        return []
    att_file_list = []
    for tmp in att_info:
        detail_list = tmp.find_all('td')
        for detail in detail_list:
            if not detail:
                continue
            try:
                for con in detail.contents:
                    ip = con.attrs['href']
                    attach_file_name = con.text.strip()
                    if ip and attach_file_name:
                        att_file_list.append({'ip': ip, 'filename': attach_file_name})
                    else:
                        LogUtils.error(f"查找 ip:{ip}, file_name:{attach_file_name} 失败")
            except IndexError:
                continue
            except KeyError:
                continue
            except Exception as err:
                LogUtils.notset(f"{err}")
                continue
    return att_file_list

运行结果及报错内容

最终解析出的结果如下href为空，
<class 'dict'>: {'class': ['bizDownload'], 'href': '', 'id': 'E8D516E2245A268E4CFCF6190FB44A', 'title': '点击下载'}

我想要达到的结果

如何能够解析出正确的地址
href="//download.ccgp.gov.cn/oss/download?uuid=E8D516E2245A268E4CFCF6190FB44A"

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-08-15 17:42
关注
可以在循环时候做一次判断：
如果解析出的 href 为空，那么手动拼接一个 href = "//download.ccgp.gov.cn/oss/download?uuid=" + id
如果不为空，那么 href 就是正确的地址

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
Python 爬虫是一种利用 Python 编程语言
2024-07-12 15:03

### Python 爬虫知识点详解 #### 一、Python 爬虫基本概念与应用场景 1. **爬虫（Crawler）**： - 定义：爬虫是一种能够自动访问互联网并从中提取所需信息的程序。 - 特点：能够按照预定规则或策略自动抓取网页...
爬虫解析网页代码解析不全 python 有问必答
2022-01-23 16:32

回答 3 已采纳题主要的代码如下 import requests import json url="https://www.qcc.com/api/bigsearch/bytagList?pageIndex=1&
python爬虫网页解析页码遍历时出现问题爬虫
2022-04-23 22:42

回答 1 已采纳这样写 div = ..... if not div: div = ...
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
使用Python的BeautifulSoup库进行网页解析爬虫和数据提取.txt
2023-08-17 11:18

### 使用Python的BeautifulSoup库进行网页解析爬虫和数据提取 #### 一、概述在当前互联网信息爆炸的时代，能够高效地从网页中提取所需信息成为了一项重要的技能。Python作为一种广泛使用的编程语言，提供了多种...
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
requests爬虫怎么能重新访问我失败的网页 python 爬虫
2021-09-06 03:21

回答 2 已采纳可以通过打印status code做判断，判别出超时或者非200的status就按逻辑重连几次有帮助望采纳
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
Python网络爬虫案例实战：解析网页：正则表达式解析网页
2024-08-12 14:20

andyyah晓波的博客得益于这一点，在提供了正则表达式的语言中，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。图5-1展示了使用正则表达式进行匹配的...
python爬虫网页解析模块及测试案例详解
2024-07-13 16:59

Appreciate(欣赏)的博客【代码】python爬虫网页解析模块及测试案例详解。
python爬虫使用selenium 实现中英互译
2022-03-23 14:30

在这个项目中，我们专注于使用Selenium实现中英互译功能，这对于处理网页上的多语言内容非常有用。首先，该项目提供了两种版本的翻译器：一个可执行的exe文件和一个Python源代码文件（translater.exe和translater....
python爬虫抓取网页数据.docx
2024-07-27 15:35

Python作为一种高度灵活且功能强大的编程语言，在爬虫开发领域占据着举足轻重的地位。其丰富的库和框架极大地简化了爬虫开发过程中涉及的各项任务，如网络请求、数据解析及数据存储等。本文将详细介绍一些常用的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月15日
展开全部

悬赏问题

¥15 用verilog实现tanh函数和softplus函数
¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含