深交所发行上市审核信息公开网站IPO数据爬取

http://listing.szse.cn/disclosure/ipo/index.html，爬取下图中的信息，具体说明如下：

爬取各个公司中的项目基本信息以及每个公司的信息披露文件招股说明书的稿件链接全部爬取下来存储到Excel中，见下图爬取位置：

http://listing.szse.cn/projectdynamic/ipo/detail/index.html?id=1002983%EF%BC%8C%E6%AF%8F%E4%B8%80%E4%B8%AA%E5%85%AC%E5%8F%B8%E7%9A%84id%E9%83%BD%E4%B8%8D%E4%B8%80%E6%A0%B7%EF%BC%8C%E7%BD%91%E5%9D%80%E4%BB%A3%E8%A1%A8%E7%9D%80%E6%AF%8F%E4%B8%AA%E5%85%AC%E5%8F%B8%E7%9A%84%E5%85%B7%E4%BD%93%E4%BF%A1%E6%81%AF%E3%80%82
我想要把这些信息，通过Python爬虫的方式都爬取到excel中，看python代码怎么写了？急需有人解答，求一个完整可运行的没有报错的，一个python代码。如果被采纳你的答案，我会给5元大钞哦！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫雾凌寒新星创作者: 人工智能技术领域 2025-07-30 11:32
关注
让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

如果还有问题，请评论或点击头像私信，如果有帮助到您, 请关注、采纳、点赞

关键点分析：
- 目标网站是深交所发行上市审核信息公开网站，需要绕过反爬虫机制。
- 要准确提取各个公司的项目基本信息和招股说明书稿件链接及内容。
- 不同页面的结构和数据提取方式需要仔细分析。
解决方案：
- 可以使用Python的requests库来发送HTTP请求获取网页内容，BeautifulSoup库来解析HTML。
- 示例代码如下：

import requests from bs4 import BeautifulSoup def get_company_info(url): response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') # 提取项目基本信息 basic_info = soup.find_all('div', class_='info-item') for info in basic_info: title = info.find('span', class_='info-title').text.strip() value = info.find('span', class_='info-value').text.strip() print(f"{title}: {value}") # 提取招股说明书链接 prospectus_link = soup.find('a', text='招股说明书') if prospectus_link: prospectus_url = 'http://listing.szse.cn' + prospectus_link['href'] get_prospectus_content(prospectus_url) def get_prospectus_content(url): response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') content = soup.find('div', class_='document-content').text print(content) base_url = 'http://listing.szse.cn/disclosure/ipo/index.html' response = requests.get(base_url) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') company_links = soup.find_all('a', class_='tab-2-item') for link in company_links: company_url = 'http://listing.szse.cn' + link['href'] get_company_info(company_url)

多种解决方案优缺点：
- 使用requests和BeautifulSoup：
优点：简单易用，适合初学者，能快速实现基本的网页爬取和解析。
缺点：对于复杂的动态网页和反爬虫机制处理能力有限。
使用Scrapy框架：
优点：功能强大，支持异步请求、中间件处理反爬虫等，效率较高。
缺点：学习成本相对较高，代码结构相对复杂。

总结：
- 首先通过分析目标网站的HTML结构，利用requests库获取网页内容，再用BeautifulSoup库提取所需信息。对于招股说明书的内容提取，先获取链接再进一步获取内容。不同的爬取方案各有优缺点，可以根据具体需求和项目情况选择合适的方法。

需要注意的是，在爬取网站数据时要确保遵守相关法律法规和网站的使用条款，避免过度爬取造成不良影响。

希望以上解答对您有所帮助。如果您有任何疑问，欢迎在评论区提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

人工智能_项目实践_数据抓取_使用python抓取上交所上市公司信息和下载深交所上市公司信息
2022-03-19 10:12

在本项目实践中，我们主要探讨了如何利用Python进行数据抓取，特别关注了从上海证券交易所（简称上交所）和深圳证券交易所（简称深交所）获取上市公司信息。这些信息对于金融分析、投资决策以及市场研究至关重要。...
深交所创业板注册制发行上市审核动态(第四期）.pdf
2021-03-26 10:28

创业板
上市公司首发IPO发行审核信息表（2006-2022）109229.zip
2024-04-17 21:55

数据来源：CS基于上市公司年报公共数据整理MAR CoName [公司名称] - InstitutionID [机构ID] - Symbol [证券代码] - 未审核通过的公司，或未披露股票代码的公司，该字段为空。 DeclareDate [工作会议公告日] - ...
深交所创业板注册制发行上市审核动态（第十二期）.pdf
2021-09-18 12:58

深交所创业板注册制发行上市审核动态（第十二期）.pdf
Python实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip
2024-03-05 21:07

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息。功能简介目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests--bs4--re 原理分析步骤1：从东方财富网获取...
使用Python检索上海证券交易所上市公司的信息，下载深圳证券交易所的上市公司
2024-10-18 21:09

本项目的核心是利用Python编程语言来自动化地检索和下载上海和深圳证券交易所上市公司的信息。Python因其简洁易学和强大的库支持，使得开发者能够编写出高效的数据抓取脚本。在这个项目中，首先需要定位到上海证券...
python爬取上市公司年报信息_python3爬取巨潮资讯网的年报数据
2021-01-14 16:35

Tsy.H的博客需要用到的库：import requestsimport ...巨潮咨询年报板块网页向服务器发送的数据请求可以通过这样的方式获取单页年报的数据，数据格式为json。其中包括年报名称，地址等数据。所以思路就是，先通过单页的数据，然...
Python爬虫实战：高效爬取上市公司质押数据
2025-05-07 12:15

Python爬虫项目的博客本文详细介绍了如何通过Python异步爬虫抓取上市公司股东质押信息，并进行数据存储、清洗、分析和可视化。通过实际代码的讲解，你可以快速掌握现代爬虫技术，并应用于各类金融数据的采集和分析中。如果你对爬虫技术感...
python爬虫爬取深交所数据
2024-06-20 19:42

2401_84569514的博客 ROW2 = []ROW3 = []ROW4 = []’,‘/’))’,‘/’))’,‘/’))’,‘/’))’,‘/’)))sheet = book.add_sheet(‘深交所基金市场概况’,cell_overwrite_ok=True)学好 Python 不论是就业还是做副业赚钱都不错，但要学会 ...
富士莱：首次公开发行股票并在创业板上市招股说明书.PDF
2022-03-22 22:53

富士莱医药计划发行人民币普通股（A股）2,292万股，每股面值1元，发行价格为48.30元，预计在2022年3月17日发行，将在深圳证券交易所创业板上市。发行后总股本将达到9,167万股。东方证券承销保荐有限公司和国泰君安...
专题资料（2021-2022年）100901深圳证券交易所首次公开发行股票发行与上市指南.doc
2021-10-08 04:58

教育资料
深圳证券交易所非公开发行公司债券挂牌转让规则.pdf
2021-11-26 01:39

《深圳证券交易所非公开发行公司债券挂牌转让规则》是规范非公开发行公司债券在深证所交易的重要规则，旨在维护市场秩序，保护投资者权益。本规则涵盖了债券的挂牌、信息披露、持有人权益保护、特别规定、自律监管及...
python爬虫 - 详细爬取深交所股票数据，爬虫爬取深交所数据，python爬取股票信息，对上交所和深交所所有的股票信息进行搜集（详细示例代码，并将爬虫爬取结果转成excel xls电子表格存储）
2024-01-10 17:54

阿咪开发~解答前端问题的博客 python爬虫股票交易所的数据，爬虫得到的数据生成excel，python爬虫爬取深交所股票数据，如何使用python获取股票数据:如何用爬虫抓取股市数据并生excel，python怎么爬取股票数据，python爬虫爬取股票信息,...
尤安设计：首次公开发行股票并在创业板上市招股说明书.PDF
2021-04-05 21:34

上海尤安建筑设计股份有限公司的首次公开发行股票并在创业板上市的招股说明书揭示了公司的基本情况、发行细节以及潜在风险。尤安设计是一家专注于建筑设计服务的企业，尤其在方案设计方面具有核心竞争力，但同时也...
股票公告数据自动抓取与归档系统_上交所深交所股票公告历史数据下载与记录工具_实现从上海证券交易所和深圳证券交易所官方网站自动定时批量下载所有上市公司的股票公告历史数据完整记录.zip
2025-12-03 14:38

该系统能够实现从上海证券交易所和深圳证券交易所官方网站自动定时批量下载所有上市公司的股票公告历史数据，并进行完整记录。这样的自动化工具，对于保证数据的时效性、准确性以及完整性方面，具有革命性的意义。 ...
Python 实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip
2024-01-17 21:09

在本Python实战项目中，我们将探讨如何爬取上海证券交易所（简称上交所）和深圳证券交易所（简称深交所）的所有股票的名称以及相关的交易信息。这个项目涵盖了Python编程、网络爬虫技术、数据处理和文件操作等多个...
法本信息：公司首次公开发行股票并在创业板上市招股说明书.PDF
2021-05-09 12:57

为此，法本信息发布了首次公开发行股票并在创业板上市的招股说明书，为投资者提供了全面了解公司经营情况和潜在风险的窗口。在招股说明书中，法本信息详细披露了其在IT服务领域的经营现状。作为一家主要面向金融、...
深圳证券交易所Binary行情数据接口开发指南
2017-09-27 22:09

深圳证券交易所Binary行情数据接口开发指南主要介绍了如何开发与深交所交易行情相关的数据接口。该接口是工程技术标准之一，被称为Binary行情数据接口规范，其目的在于提供一种结构化的方式接收深交所的实时交易行情...
获取上海证券交易所和深圳证券交易所上市公司的实时股票数据
2024-10-15 17:15

MonkeyKing.sun的博客获取上海证券交易所和深圳证券交易所上市公司的实时股票数据，可以使用多个 API 平台，如 Tushare、东方财富网、新浪财经、阿里云、聚宽等。你可以根据自身的需求选择合适的数据源和API接口来实现数据的实时获取。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

深交所发行上市审核信息公开网站IPO数据爬取

5条回答 默认 最新

问题事件

5条回答默认最新