水均淼 2025-07-29 20:45 采纳率: 16.7%

深交所信息披露IPO和项目动态IPO爬取

我想有没有人知道怎么爬取这个深圳证券交易所的申报稿、上会稿、注册稿，它们之间的链接是否有一定联系，怎么撰写代码才能将其爬取下来？https://listing.szse.cn/disclosure/ipo/index.html
https://listing.szse.cn/projectdynamic/ipo/detail/index.html?id=1003423%EF%BC%8C%E9%93%BE%E6%8E%A5%E6%8F%90%E4%BE%9B%E7%BB%99%E4%BD%A0%E4%BB%AC%EF%BC%8C%E4%BD%A0%E4%BB%AC%E5%B8%AE%E6%88%91%E7%9C%8B%E7%9C%8B%E8%AF%A5%E6%80%8E%E4%B9%88%E5%BC%84%E5%95%8A%EF%BC%9F%E9%A1%B9%E7%9B%AE%E5%8A%A8%E6%80%81IPO%E4%B8%AD%E7%9A%84%E5%8F%91%E8%A1%8C%E4%BA%BA%E5%85%A8%E7%A7%B0%E7%82%B9%E5%87%BB%E8%BF%9B%E5%8E%BB%E6%9C%89%E5%90%84%E4%B8%AA%E5%85%AC%E5%8F%B8%E7%9A%84%E7%A8%BF%E4%BB%B6PDF%E9%82%A3%E4%BA%9B%E4%BF%A1%E6%81%AF%EF%BC%8C%E9%9C%80%E8%A6%81%E7%88%AC%E5%8F%96%E5%87%BA%E6%9D%A5%EF%BC%8C%E8%AE%B0%E5%BE%97%E5%9B%9E%E7%AD%94%E9%83%BD%E7%BB%99%E6%88%91%E6%AD%A3%E7%A1%AE%E6%97%A0%E8%AF%AF%E7%9A%84%E4%BB%A3%E7%A0%81%EF%BC%8C%E9%83%BD%E8%AF%B4%E6%98%8E%E4%B8%80%E4%B8%8B%EF%BC%8C%E5%A6%82%E6%9E%9C%E5%A5%BD%E7%9A%84%E8%AF%9D%EF%BC%8C%E5%B0%B1%E9%87%87%E7%BA%B3%EF%BC%81%E7%9B%B8%E5%85%B3%E7%9B%AE%E5%BD%95%E7%9A%84%E9%93%BE%E6%8E%A5%E6%80%8E%E4%B9%88%E8%8E%B7%E5%8F%96%EF%BC%9F

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-07-29 20:48
关注
晚上好🌙🌙🌙
本答案参考通义千问

你提到的深圳证券交易所（深交所）的 IPO申报稿、上会稿、注册稿 等信息，是上市公司在上市过程中需要披露的重要文件。这些信息通常在 深交所官网 的以下两个页面中展示：

IPO申报稿/上会稿/注册稿：https://listing.szse.cn/disclosure/ipo/index.html
项目动态IPO详情页：https://listing.szse.cn/projectdynamic/ipo/detail/index.html?id=...

一、问题分析

1. 链接之间的关系

IPO申报稿 是公司提交给监管机构的初步材料；
上会稿 是经过审核后准备上发审委会议的材料；
注册稿 是最终通过审核并完成注册的文件。

它们之间有时间顺序和逻辑关联，但没有直接的URL链接可以一键跳转。通常需要通过列表页面获取ID，再根据ID访问详情页来查看具体文件。

2. 爬取难点

深交所网站使用了反爬机制（如验证码、请求频率限制等）；
部分页面使用JavaScript动态加载内容，无法直接通过静态HTML抓取；
文件可能以PDF形式存在，需提取PDF链接或下载PDF。

二、解决方案（步骤详解）

✅ 步骤 1：分析目标网页结构

1.1 IPO申报稿页面

网址：https://listing.szse.cn/disclosure/ipo/index.html

使用浏览器开发者工具（F12）查看页面元素，找到申报稿列表的结构。
通常包含字段：公司名称、申报日期、状态（如“已受理”、“已反馈”等）、ID（用于访问详情页）。

1.2 项目动态IPO详情页

网址：https://listing.szse.cn/projectdynamic/ipo/detail/index.html?id=...

需要从申报稿页面获取ID，然后构造URL访问详情页。
详情页中可能会包含PDF文件链接，例如：
<a href="/projectdynamic/ipo/download?fileId=123456">下载PDF</a>

✅ 步骤 2：确定数据来源与接口（可选）

如果网页是通过 AJAX 请求加载数据，你可以尝试通过浏览器开发者工具的 Network 面板查找 API 接口，例如：

GET https://listing.szse.cn/api/ipo/list?page=1&size=10

该接口可能返回 JSON 格式的数据，包含所有 IOP 项目的 ID、名称、状态等信息。

✅ 步骤 3：编写 Python 爬虫代码（示例）

下面是一个基本的 Python + requests + BeautifulSoup 示例代码，用于爬取 IPO 申报稿列表，并提取其中的 ID 和 PDF 下载链接。

⚠️ 注意：此代码仅用于学习目的，请遵守网站的 robots.txt 和相关法律法规。

import requests from bs4 import BeautifulSoup import time # 设置请求头，模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' } def get_ipo_list(): url = 'https://listing.szse.cn/disclosure/ipo/index.html' response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'lxml') # 假设申报稿列表在 <table class="table"> 中 table = soup.find('table', {'class': 'table'}) rows = table.find_all('tr')[1:] # 跳过表头 for row in rows: tds = row.find_all('td') company_name = tds[0].text.strip() status = tds[1].text.strip() id_link = tds[2].find('a')['href'] # 获取详情页链接 # 提取ID detail_id = id_link.split('id=')[1].split('&')[0] print(f"公司名称: {company_name}, 状态: {status}, ID: {detail_id}") # 访问详情页 detail_url = f'https://listing.szse.cn/projectdynamic/ipo/detail/index.html?id={detail_id}' detail_response = requests.get(detail_url, headers=headers) detail_soup = BeautifulSoup(detail_response.text, 'lxml') # 查找PDF链接 pdf_link = detail_soup.find('a', {'class': 'download-btn'})['href'] print(f"PDF下载链接: https://listing.szse.cn{pdf_link}\n") time.sleep(1) # 避免频繁请求被封IP if __name__ == '__main__': get_ipo_list()

✅ 步骤 4：处理反爬机制

4.1 使用代理 IP

如果被封 IP，可以使用代理服务（如 快代理、芝麻代理）：

proxies = { 'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:1080', } response = requests.get(url, headers=headers, proxies=proxies)

4.2 设置请求间隔

time.sleep(2) # 每次请求间隔2秒

4.3 处理 JavaScript 渲染

如果页面内容由 JS 动态加载，可以考虑使用 Selenium 或 Playwright：

from selenium import webdriver driver = webdriver.Chrome() driver.get("https://listing.szse.cn/disclosure/ipo/index.html") # 等待JS渲染完成 time.sleep(5) # 提取内容...

✅ 步骤 5：保存数据（可选）

你可以将爬取的数据保存为 CSV 或 Excel 文件：

import pandas as pd data = [] for row in rows: # ...提取数据... data.append([company_name, status, detail_id, pdf_link]) df = pd.DataFrame(data, columns=['公司名称', '状态', 'ID', 'PDF链接']) df.to_csv('ipo_data.csv', index=False, encoding='utf-8-sig')

三、注意事项

遵守法律和网站规则：请确保你的行为符合《中华人民共和国网络安全法》及网站的《用户协议》。
避免高频请求：不要短时间内大量请求，以免被封IP。
建议使用合法方式获取数据：如需大规模数据，可联系深交所官方获取授权接口。

四、总结

| 步骤 | 内容 | |------|------| | 1 | 分析目标网页结构 | | 2 | 确定数据来源与接口 | | 3 | 编写 Python 爬虫代码 | | 4 | 处理反爬机制（代理、延迟等） | | 5 | 保存数据 |

如果你希望我帮你进一步优化代码，或者针对某个特定页面进行解析，请提供更具体的网页源码或截图，我可以帮助你定制化代码。

如有其他问题，欢迎继续提问！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip
2024-03-05 21:07

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息。功能简介目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests--bs4--re 原理分析步骤1：从东方财富网获取...
Python 实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip
2024-01-17 21:09

在本Python实战项目中，我们将探讨如何爬取上海证券交易所（简称上交所）和深圳证券交易所（简称深交所）的所有股票的名称以及相关的交易信息。这个项目涵盖了Python编程、网络爬虫技术、数据处理和文件操作等多个...
人工智能_项目实践_数据抓取_使用python抓取上交所上市公司信息和下载深交所上市公司信息
2022-03-19 10:12

在本项目实践中，我们主要探讨了如何利用Python进行数据抓取，特别关注了从上海证券交易所（简称上交所）和深圳证券交易所（简称深交所）获取上市公司信息。这些信息对于金融分析、投资决策以及市场研究至关重要。...
深圳证券交易所信息披露要求.pptx
2021-10-05 08:07

深圳证券交易所信息披露要求.pptx
中国软件和信息服务业IPO.docx
2025-05-10 00:47

2012年的新上市企业分布在全球8个证券交易所。与2011年相比，境外上市的交易所数量增加。深交所创业板成为中国软件和信息服务业企业上市的主要市场，有18家企业在此成功上市。另有企业在其他境内外资本市场上市，...
深圳证券交易所上市公司信息披露事务管理制度指引.doc
2021-10-01 14:20

《深圳证券交易所上市公司信息披露事务管理制度指引》是针对上市公司在证券市场进行信息披露时的重要规范，旨在规范上市公司信息披露行为，提升信息披露质量。此指引根据《证券法》、《上市公司信息披露管理办法》和...
深交所信息披露考评结果2005-2017.zip
2025-01-12 15:58

在中国资本市场的发展历程中，深圳证券交易所作为重要的组成部分，对于上市公司的信息披露制度一直持续不断地进行完善与监管。自2005年起至2017年，深交所对上市公司信息披露的考评结果是一份珍贵的资料，它不仅反映...
Scrapy爬取上证和深证所有股票信息.zip
2024-03-29 15:02

在这个"Scrapy爬取上证和深证所有股票信息"项目中，开发者利用Scrapy框架来抓取上海证券交易所和深圳证券交易所的股票数据，这些数据对于数据分析、投资决策或者毕业设计等用途非常有价值。该项目的核心知识点包括...
深交所信息披露考评数据01-20年
2024-04-16 14:11

写论文时用到的数据，就把深交所的信息披露评级都爬下来了，有需要的可以自取因为自己用到的，dta格式的评级都转化成数字了经过前期多人反馈，增加了评级赋值的方法，其中： level变量是优秀-不合格分别对应...
【更新至2022】沪、深交易所上市公司信息披露质量评价等级
2024-04-11 19:53

深交所（至2022年）+上交所（至2022）信息披露质量评价等级 ...因此，上海、深圳证券交易所的信息披露质量评价等级可以作为上市公司信息不对称、信息披露质量、信息透明度、会计信息质量度量的可靠、可行的良
深交所信息披露考评结果爬虫
2019-11-10 16:06

ourwechat-271828的博客毕业论文中要用到深交所的信息披露考评结果，但是，深交所网站不提供下载，一个个复制粘贴太麻烦，写了一段小程序爬取考评结果。写的比较粗糙，但是完全可以使用，有疑问之处欢迎在下面留言讨论 import json import ...
中国内地和香港IPO市场：2025年第一季度回顾-毕马威.pdf
2025-05-13 13:15

全球主要交易所中，印度国家证券交易所、上海证券交易所和深圳证券交易所表现不俗，显示了亚洲市场的活力和潜力。毕马威会计师事务所预计，尽管存在贸易关税和利率方面的不确定性，全球投资者对人工智能的应用前景...
2021-2022年收藏的精品资料深圳证券交易所上市公司公平信息披露指引.doc
2021-09-17 21:46

精品教育教学资料
使用Python检索上海证券交易所上市公司的信息，下载深圳证券交易所的上市公司
2024-10-18 21:09

本项目的核心是利用Python编程语言来自动化地检索和下载上海和深圳证券交易所上市公司的信息。Python因其简洁易学和强大的库支持，使得开发者能够编写出高效的数据抓取脚本。在这个项目中，首先需要定位到上海证券...
python爬虫爬取深交所数据
2024-06-20 19:42

2401_84569514的博客 ROW2 = []ROW3 = []ROW4 = []’,‘/’))’,‘/’))’,‘/’))’,‘/’))’,‘/’)))sheet = book.add_sheet(‘深交所基金市场概况’,cell_overwrite_ok=True)学好 Python 不论是就业还是做副业赚钱都不错，但要学会 ...
上市公司首发IPO发行审核信息表（2006-2022）109229.zip
2024-04-17 21:55

2.深圳交易所 ConveneDate [审核会议召开日] - YYYY-MM-DD MeetingYear [会议年度] - SessionNum [会议届次] - AuditCommittee [审核委员] - AuditConclusion [审核结果] - 1.通过；2.未通过；3.待表决；4.取消...
专题资料（2021-2022年）17深圳证券交易所上市公司信息披露工作指引第1号.doc
2021-10-08 02:45

【深圳证券交易所上市公司信息披露工作指引第1号】是针对主板上市公司业绩预告和业绩快报的规范性文件，旨在提高信息披露的及时性和准确性，保护投资者权益。本指引主要涵盖以下几个关键知识点： 1. **适用范围**：...
2021-2022年收藏的精品资料深圳证券交易所中小企业板上市公司公平信息披露指引.doc
2021-09-17 21:46

《2021-2022年收藏的精品资料深圳证券交易所中小企业板上市公司公平信息披露指引》应运而生，其目的在于通过明确的信息披露规则，确保所有投资者能够在同等条件下获取重要信息，从而提升市场信息透明度和公平性。...
《深圳证券交易所人力资源管理咨询项目现状分析报告》.ppt
2021-09-16 09:35

《深圳证券交易所人力资源管理咨询项目现状分析报告》应运而生，该报告不仅仅是一份简单的诊断书，而是为深交所量身定做的提升策略。报告开篇便介绍了分析的基础，包括与中高层领导的深度访谈、广泛收集的文献资料...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月29日

码龄粉丝数原力等级 --

深交所信息披露IPO和项目动态IPO爬取

7条回答默认最新

码龄粉丝数原力等级 --

一、问题分析

1. 链接之间的关系

2. 爬取难点

二、解决方案（步骤详解）

✅ 步骤 1：分析目标网页结构

1.1 IPO申报稿页面

1.2 项目动态IPO详情页

✅ 步骤 2：确定数据来源与接口（可选）

✅ 步骤 3：编写 Python 爬虫代码（示例）

✅ 步骤 4：处理反爬机制

4.1 使用代理 IP

4.2 设置请求间隔

4.3 处理 JavaScript 渲染

✅ 步骤 5：保存数据（可选）

三、注意事项

四、总结

问题事件

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

深交所信息披露IPO和项目动态IPO爬取

7条回答 默认 最新

一、问题分析

1. 链接之间的关系

2. 爬取难点

二、解决方案（步骤详解）

✅ 步骤 1：分析目标网页结构

1.1 IPO申报稿页面

1.2 项目动态IPO详情页

✅ 步骤 2：确定数据来源与接口（可选）

✅ 步骤 3：编写 Python 爬虫代码（示例）

✅ 步骤 4：处理反爬机制

4.1 使用代理 IP

4.2 设置请求间隔

4.3 处理 JavaScript 渲染

✅ 步骤 5：保存数据（可选）

三、注意事项

四、总结

问题事件

7条回答默认最新