水均淼 2025-07-12 21:49 采纳率: 16.7%

已结题

python爬虫爬取上海证券交易所发行上市的数据

https://www.sse.com.cn/listing/renewal/ipo/index_listing_detail.shtml?auditId=1783
该链接中的上海证券交易所中的发行上市

截图中的这些数据，一共639页，共15959条
把这些数据通过python爬虫的方式怎么爬取出来？
https://www.sse.com.cn/listing/renewal/ipo/index_listing_detail.shtml?auditId=1783
包括爬取出发行人中的项目信息，和文件名称的具体文件都爬取出来怎么爬取？求各位急救，解答我的问题。

有人能给我完整可运行的代码，包含EXCEL/CSV数据文件吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-07-12 21:57

关注

让【宝码香车】来帮你解答，本回答参考DeepSeek编写，并整理提供。

如果还有疑问可以点击头像关注私信或评论。如果答案让您满意，请采纳、点赞、关注，非常感谢！

若您愿意支持，欢迎直接打赏，将不胜感激！

上海证券交易所发行上市数据爬取方案

根据您提供的需求，我将为您设计一个爬取上海证券交易所发行上市数据的Python爬虫方案。该爬虫将爬取639页共15959条数据，包括发行人信息和文件名称。

分析目标网站

目标URL: https://www.sse.com.cn/listing/renewal/ipo/index_listing_detail.shtml?auditId=1783
数据格式: 表格形式，分页显示
需要爬取: 发行人名称、文件名称、披露日期等信息

爬虫实现方案

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random
import os


# 请求头设置
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Referer': 'https://www.sse.com.cn/'
}


# 基础URL
base_url = 'https://www.sse.com.cn/listing/renewal/ipo/index_listing_detail.shtml'


def get_page_data(page_num):
    """获取单页数据"""
    params = {
        'auditId': 1783,
        'pageNo': page_num,
        'pageSize': 25  # 每页25条数据
    }
    
    try:
        response = requests.get(base_url, params=params, headers=headers)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 提取表格数据
        table = soup.find('table', {'class': 'table table-striped'})
        if not table:
            return None
            
        rows = table.find_all('tr')[1:]  # 跳过表头
        data = []
        
        for row in rows:
            cols = row.find_all('td')
            if len(cols) >= 4:
                item = {
                    '发行人': cols[0].get_text(strip=True),
                    '文件名称': cols[1].get_text(strip=True),
                    '披露日期': cols[2].get_text(strip=True),
                    '板块': cols[3].get_text(strip=True)
                }
                # 提取文件链接
                file_link = cols[1].find('a')
                if file_link and file_link.get('href'):
                    item['文件链接'] = 'https://www.sse.com.cn' + file_link['href']
                data.append(item)
        
        return data
    
    except Exception as e:
        print(f"获取第{page_num}页数据失败: {e}")
        return None


def download_file(url, save_path):
    """下载文件"""
    try:
        response = requests.get(url, headers=headers, stream=True)
        response.raise_for_status()
        
        with open(save_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
        return True
    except Exception as e:
        print(f"下载文件失败: {url}, 错误: {e}")
        return False


def main():
    # 创建保存目录
    if not os.path.exists('sse_data'):
        os.makedirs('sse_data')
    if not os.path.exists('sse_data/files'):
        os.makedirs('sse_data/files')
    
    all_data = []
    total_pages = 639  # 总页数
    
    for page in range(1, total_pages + 1):
        print(f"正在爬取第{page}页...")
        page_data = get_page_data(page)
        
        if page_data:
            all_data.extend(page_data)
            
            # 下载文件
            for item in page_data:
                if '文件链接' in item:
                    file_name = f"{item['发行人']}_{item['文件名称']}.pdf"
                    # 清理文件名中的非法字符
                    file_name = ''.join(c for c in file_name if c.isalnum() or c in (' ', '_', '-', '.'))
                    save_path = os.path.join('sse_data/files', file_name)
                    
                    if not os.path.exists(save_path):
                        download_file(item['文件链接'], save_path)
                        time.sleep(random.uniform(1, 3))  # 随机延迟
        
        time.sleep(random.uniform(2, 5))  # 防止请求过于频繁
        
        # 每50页保存一次进度
        if page % 50 == 0:
            df = pd.DataFrame(all_data)
            df.to_excel(f'sse_data/sse_listing_data_page_{page}.xlsx', index=False)
            print(f"已保存前{page}页数据")
    
    # 保存最终数据
    df = pd.DataFrame(all_data)
    df.to_excel('sse_data/sse_listing_data_final.xlsx', index=False)
    print("所有数据爬取完成！")


if __name__ == '__main__':
    main()

爬虫工作流程

"开始"

注意事项

反爬机制:
- 添加了随机延迟，避免请求过于频繁
- 使用了合理的User-Agent和Referer
- 建议在非高峰时段运行爬虫

数据存储:
- 数据会保存为Excel文件
- 文件会下载到本地sse_data/files目录
- 每50页会保存一次进度

扩展功能:
- 可以添加代理IP池增强稳定性
- 可以增加重试机制处理失败请求
- 可以添加日志记录功能

法律合规:
- 请确保您的爬取行为符合上海证券交易所的使用条款
- 不要对网站造成过大负担
- 爬取的数据仅用于个人学习研究

如果需要更详细的实现或有任何问题，请随时提问。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(6条)

报告相同问题？

关注问题

python 爬虫爬取国家统计局行政区数据
2020-03-21 20:58

运行即可生成数据库插入数据 insert into province(name,code,type,parent_code) values (北京市,110000000000,1,000000000000); 最好分线程下载
Python爬虫爬取 Instagram 博主照片视频.zip
2023-12-01 21:20

python爬虫Python爬虫爬取 Instagram 博主照片视频Python爬虫爬取 Instagram 一个博主所有图片视频用法：在代码中加上自己的cookie, 修改图片保存路径, 在命令行运行 python instagram.py user_name # 这里的user_...
python爬虫爬取网页表格数据
2020-12-25 04:20

用python爬取网页表格数据，供大家参考，具体内容如下 from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_...
基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告
2022-06-13 17:03

基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告源代码+csv文件+设计报告 python期末简单大作业（自己写的，重复率低）利用python爬取了网站上的城市天气，并用利用可视化展示，有参考文献有...
Python爬虫爬取招聘数据和代码.zip
2020-05-07 10:50

这个压缩包“Python爬虫爬取招聘数据和代码.zip”提供了一个完整的解决方案，教你如何利用Python来爬取与Python编程语言相关的招聘信息。首先，我们来详细探讨Python爬虫的基础知识。Python之所以被广泛用于爬虫...
python爬虫爬取历史股价数据
2023-03-07 16:32

爬取 xx网站的数据，使用 Python 的 Requests 库和 BeautifulSoup 库解析，生成表格
Python爬虫爬取智联招聘
2018-05-29 16:44

在本篇文章中，作者王强介绍了如何使用Python语言开发爬虫程序，用以从智联招聘网站中爬取职位信息。文章分为基础版和进阶版两个部分。基础版详细介绍了构建URL、使用urllib库的urlencode函数、requests库的使用以及...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

Python作为一门简洁而强大的编程语言，因其丰富的库支持，成为编写网络爬虫的热门选择之一。本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月12日