用爬虫获取巨潮网上市公司年报，到获取pdf链接那一步，但运行后结果里只有变量名“code,secName,orgId,announcementId,announcementTitle,pdf_url”

用爬虫获取巨潮网上市公司年报，
到获取pdf链接那一步，顺利爬了两千多家之后，突然就爬不了了，代码可以运行，但运行后结果里只有变量名“code,secName,orgId,announcementId,announcementTitle,pdf_url”，没有具体的链接，这是什么情况呀？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-18 08:29
关注
引自免费微信小程序：皆我百晓生

看起来你在尝试抓取巨潮网（http://www.cninfo.com.cn）上的上市公司年报PDF链接，但在某个时间点后，你发现爬虫不再返回PDF链接。这种情况可能是由于网站结构变化、反爬虫策略或其他未知因素导致的。为了帮你解决这个问题，我们可以逐步分析并调试代码。

首先，确保你使用的爬虫库是最新的，并且检查是否有任何更新或更改可能影响爬取过程。在本例中，我们假设你正在使用requests和BeautifulSoup库进行网页抓取。确保已安装这两个库，如果没有，请使用以下命令安装：

pip install requests beautifulsoup4

接下来，让我们查看你的代码片段。根据提供的部分代码，我们可以看到你已经读取了一个CSV文件，其中包含公司的基本信息。然后，你将这些信息用于构造请求URL并提取PDF链接。这是一个基本的示例代码，展示了如何实现这一过程：

import pandas as pd import requests from bs4 import BeautifulSoup # 读取公司信息的CSV文件 df = pd.read_csv('firm_message.csv', dtype={'code': str}) # 定义目标网页的URL模板 url_template = "http://www.cninfo.com.cn/new/search/search公积金公告_detail.php?plate=&stockCode={}&reportType=20" # 遍历CSV中的每一行 for index, row in df.iterrows(): # 构造完整的URL stock_code = row['code'] target_url = url_template.format(stock_code) # 发送GET请求 response = requests.get(target_url, headers=headers, cookies=cookies) # 检查响应是否成功 if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') # 在HTML中查找PDF链接 pdf_link = soup.find('a', string='点击下载PDF格式')["href"] # 如果找到PDF链接，则打印出来 if pdf_link: print(f"Company: {row['secName']}, PDF URL: {pdf_link}") else: print(f"No PDF link found for Company: {row['secName']}") else: print(f"Failed to fetch data from {target_url}")

请确保你有正确的headers和cookies设置，因为它们对于正确地访问页面至关重要。如果你之前已经定义了这些变量，请确保在这里使用它们。否则，你可能需要重新考虑你的登录或会话管理方式。

如果你仍然遇到问题，可能是网站结构发生了改变，或者你需要处理JavaScript加载的内容。在这种情况下，你可能需要考虑使用像Selenium这样的工具来模拟浏览器行为。如果问题持续存在，那么可能需要定期检查巨潮网的HTML结构，以便针对其变化进行调整。

如果你能提供更详细的代码，或者具体指出哪些部分出现问题，我可以提供更精确的帮助。同时，如果你能分享一些失败的URL，我可以帮你进一步分析问题所在。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫 - 爬取 json 格式数据（巨潮网，公司年报）
2024-04-25 08:30

牛魔王的小怪兽的博客 python爬虫五部曲：第一步：安装requests库第二步：获取爬虫所需的header和cookie 第三步：获取网页第四步：解析网页第五步：分析得到的Json数据
python爬取上市公司年报信息_python3爬取巨潮资讯网的年报数据
2021-01-14 16:35

Tsy.H的博客需要用到的库：import requestsimport random #随机生成爬虫休眠时间import time前期准备：巨潮资讯网有反爬虫机制，所以先打开巨潮资讯网的年报板块，看看有什么解决办法。巨潮咨询年报板块网页向服务器发送的数据...
从巨潮网批量爬取三板公司年报
2024-11-15 14:41

yioo_0825的博客奇怪的是按照up主的代码是可以下载主板上市公司公告的，换成三板的参数，下载的pdf都只有1kb，打不开的。2.我想要的是三板挂牌公司的年度报告，我找到的方法下载的都是主板上市公司的公告。自学摸索，终于在开发人员...
【python 爬虫】巨潮资讯网公告下载
2025-06-30 14:28

景元元大猫猫的博客本文介绍了如何从巨潮资讯网爬取公告文件的技术方案。主要内容包括：1. 使用requests模块构造POST请求获取公告元数据，分析返回的JSON结构；2. 通过selenium模拟浏览器操作点击下载按钮实现文件下载；3. 设计分页...
python爬取上市公司年报信息_爬取巨潮资讯制造业公司年报数据
2020-12-23 21:26

鑫语人间的博客 +'&announceTime='+i['adjunctUrl'][10:20] name= i["secCode"]+ '_' + i['secName']+ '_' + i['announcementTitle']+ '.pdf' if '*' in name: name= name.replace('*','') file_path= saving_path+ '//' + name ...
【工作提效】教你如何用Python轻松爬取上市公司年报，新手也能快速上手！copy即用
2024-07-09 21:05

Hdu-ABlue的博客利用python抓取上市公司年报，季度报告，问询函等信息，无需代码基础也可以上手即用
python3爬取巨潮资讯网的年报数据
2019-07-29 09:50

C4C4C4C的博客巨潮资讯网有反爬虫机制，所以先打开巨潮资讯网的年报板块，看看有什么解决办法。巨潮咨询年报板块可以通过这样的方式获取单页年报的数据，数据格式为json。其中包括年报名称，地址等数据。所以思路就是，...
爬取年报数据、解析PDF提取数据、分析代码（巨潮 Python）
2019-04-30 17:33

herr_kun的博客利用Python爬取巨潮网页上的年报等数据，通过解析下载的PDF文件，提取其中有用的数据，并写入到本地文件中。主要分为几个模块： 1、从Excel或者列表或者TXT读取股票代码 2、根据股票代码和年份等信息爬取特定...
python爬取巨潮资讯网所有股票年报数据
2024-12-23 14:45

苏格拉没有底w的博客爬虫获取巨潮资讯网数据
AI网络爬虫015：批量下载巨潮资讯基金招募说明书
2024-07-08 08:53

翰墨之道的博客封闭式基础设施证券投资基金招募说明书 AI网络爬虫015：批量下载巨潮资讯基金招募说明书
巨潮资讯网爬取年报（存在错误）
2022-11-30 12:48

又菜又想卷的博客从巨潮资讯网爬取年报，报错
从巨潮资讯网获取数据
2022-08-21 15:36

小川月的博客实现爬取过程 1：找到正确的url 首先分析网页，我们会发现我们在设置关键字以及的时候，网页上方的url是不会发生变化的，所以找到争取的url，同时设置参数，才能请求到我们想要的内容。（1）：右键检查。（2）：...
python爬虫（一）---之爬取巨潮资讯网上市公司的年报
2024-04-11 20:20

雷博lb的博客 -------------------------------\n".format(len(code_dic)))print("待爬取企业总数量为：{}\n\n ------------------------------------已加载待爬取企业匹配信息，即将开始爬取数据！-----------------------------...
python爬虫 | 爬取巨潮资讯上的上市公司招股说明书
2021-11-03 09:33

Claire_lemon的博客笔记是在巨潮资讯上爬取上市公司的招股说明书，如果要爬取别的，可以更换关键词 import requests import json import os import urllib.parse import pprint import urllib.request # 创建说明书保存路径-data try...
爬取某公司特定年份年报+年报表格信息提取
2023-06-20 21:06

RaYuj的博客从巨潮爬取公司年报，利用pdfplumber提取表格信息
视频教你从巨潮咨询网站批量下载上市公司公告pdf文件
2020-01-20 20:46

邓旭东HIT的博客 Python网络爬虫与文本数据分析(视频课)常见的爬虫都是采集文本数据，如果待采集的是很多个文件，如何批量下载？今天我们以巨潮资讯网 http://www.cninfo.com.cn 为...
python3爬取巨潮资讯网站年报数据
2019-02-13 11:41

world004的博客 python3爬取巨潮资讯网站年报数据 ...脚本运行环境为python3.7，脚本设定从开始时间到当前日期下载年报文件，将年报的下载地址和文件名存放在指定文件夹下的csv文件中，想下载的再写一个脚本读取csc文...
A股上市公司年报链接获取（详细分析过程+成品）
2023-05-22 16:29

凌小添的博客获取年报链接，便于批量下载并做数据分析。
【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel
2023-04-04 20:15

凌小添的博客如何用100行代码实现对上市公司年报链接的爬取，简单上手，附源码。
java爬虫实战（2）：下载沪深信息科技类上市公司年度报告
2017-04-07 16:12

菜的抠脚弟弟的博客涉及数据内容是2010年-2016年的沪深主板上市信息科技类公司年报，由于并没有现成的数据源，百度之后发现“巨潮咨询网（http://www.cninfo.com.cn/）”中含有所需信息，但需要自己手动下载，工程量大。因此，程序作为...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

用爬虫获取巨潮网上市公司年报，到获取pdf链接那一步，但运行后结果里只有变量名“code,secName,orgId,announcementId,announcementTitle,pdf_url”

3条回答 默认 最新

问题事件

3条回答默认最新