丁香医生 2025-09-20 07:50 采纳率: 98.9%

已采纳

如何用Python获取申万二级行业指数历史数据？

如何用Python获取申万二级行业指数的历史成分股及权重数据？由于申万指数官网未提供公开API，且第三方金融数据平台（如东方财富、同花顺）对申万行业数据的接口不完整或需付费，导致难以批量获取指定日期范围内的历史行业成分股及其权重。常见的尝试包括爬虫抓取网页表格或逆向分析前端请求，但常面临反爬机制、数据结构变动等问题。此外，Tushare、Baostock等开源库虽支持部分申万一级行业数据，但对二级行业的覆盖有限。如何稳定、合规地获取高质量的申万二级行业历史数据成为实际应用中的技术难点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

诗语情柔 2025-09-20 07:50

关注

如何用Python获取申万二级行业指数的历史成分股及权重数据？

1. 问题背景与挑战分析

申万行业分类体系（申银万国行业指数）是中国资本市场广泛使用的行业划分标准，尤其在量化研究、因子回测和组合管理中具有重要地位。其中，申万二级行业包含约90余个细分行业，其成分股与权重随季度调整而变化。

然而，官方（申万宏源证券）并未开放公开API接口，且其官网仅提供有限的PDF或HTML格式公告，导致自动化采集困难。第三方平台如：

东方财富：仅提供部分实时快照，无历史权重追溯功能；
同花顺iFinD：需商业授权，成本高；
Tushare Pro：支持申万一级行业划分，但二级行业数据缺失严重；
Baostock：数据更新滞后，结构不完整。

因此，构建一个稳定、合规、可扩展的Python解决方案成为关键需求。

2. 数据来源可行性评估

数据源	是否支持申万二级	是否含历史权重	访问方式	合规性风险
申万官网	是	部分（PDF公告）	网页抓取	中（反爬机制强）
Tushare	否（仅一级）	否	API	低
Baostock	部分	否	API	低
东方财富网	是（页面展示）	仅当前	爬虫 + JS逆向	中高
Wind / iFinD	是	是	商业终端SDK	低（但昂贵）
本地维护数据库	可定制	是	自建+更新	最低

3. 技术路径设计：从简单到复杂

初级方案：使用静态网页爬虫定期抓取东方财富“申万行业”页面；
中级方案：通过Selenium模拟浏览器行为，解析动态加载的成分股表格；
高级方案：逆向分析前端XHR请求，直接调用隐藏接口获取JSON数据；
终极方案：结合多源数据清洗 + 增量更新机制 + 本地时序数据库存储。

4. 高级爬虫实现示例（基于Requests + Selenium）

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import time
import re

def fetch_sw_industry_weights(date_str='2024-03-31'):
    # 启动无头浏览器
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    driver = webdriver.Chrome(options=options)

    try:
        url = f"https://data.eastmoney.com/stock/trade/{date_str}.html"
        driver.get(url)
        time.sleep(5)  # 等待JS渲染

        # 查找行业成分表
        tables = driver.find_elements(By.CSS_SELECTOR, "table tbody")
        for table in tables:
            if "申万二级" in table.text:
                rows = table.find_elements(By.TAG_NAME, "tr")
                data = []
                for row in rows[1:]:
                    cols = row.find_elements(By.TAG_NAME, "td")
                    if len(cols) > 5:
                        code = cols[1].text.strip()
                        name = cols[2].text.strip()
                        weight = float(re.sub(r'[^\d.]','', cols[5].text))
                        data.append([code, name, weight])
                df = pd.DataFrame(data, columns=['股票代码', '股票名称', '权重'])
                return df
    finally:
        driver.quit()

# 调用示例
df = fetch_sw_industry_weights('2023-12-31')
print(df.head(10))

5. 反爬策略应对与稳定性优化

面对常见的反爬机制，建议采取以下措施：

使用User-Agent轮换池模拟真实用户；
引入requests-html或Playwright处理复杂JS渲染；
设置随机延迟（time.sleep(random.uniform(1,3))）避免频率过高；
利用代理IP池分散请求来源；
对响应内容进行指纹校验，识别是否被重定向至验证码页。

6. 构建本地历史数据库（SQLite + Pandas）

import sqlite3
from datetime import datetime

def save_to_db(df, industry_name, date):
    conn = sqlite3.connect('sw_industry_history.db')
    cursor = conn.cursor()
    
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS sw_weights (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            industry TEXT,
            stock_code TEXT,
            stock_name TEXT,
            weight REAL,
            date DATE,
            updated_at TIMESTAMP
        )
    ''')
    
    for _, row in df.iterrows():
        cursor.execute('''
            INSERT INTO sw_weights (industry, stock_code, stock_name, weight, date, updated_at)
            VALUES (?, ?, ?, ?, ?, ?)
        ''', (industry_name, row['股票代码'], row['股票名称'], 
              row['权重'], date, datetime.now()))
    
    conn.commit()
    conn.close()

# 示例保存
save_to_db(df, '电子-半导体', '2023-12-31')

7. 数据质量监控与自动化流程

为确保长期可用性，应建立如下监控机制：

graph TD A[定时任务启动] --> B{目标日期是否存在?} B -->|否| C[调用爬虫获取数据] B -->|是| D[跳过] C --> E[解析JSON/HTML] E --> F[数据清洗与校验] F --> G[存入SQLite/MongoDB] G --> H[发送状态邮件或日志记录] H --> I[结束]

8. 替代方案探索：学术合作与数据众筹

对于无法突破技术壁垒的团队，可考虑：

接入高校金融实验室共享数据库（如CCER、CSMAR）；
参与开源项目（如akshare），贡献并获取申万行业补丁；
联合多家机构共建去中心化行业数据联盟链，实现数据互信共享。

9. 合规边界提醒

尽管技术上可行，但需注意：

不得高频抓取造成服务器压力；
避免绕过登录认证或验证码系统；
商业用途需获得原始数据源授权；
建议优先采购合法数据服务以降低法律风险。

10. 推荐工具栈汇总

用途	推荐工具	优势
静态爬取	requests + BeautifulSoup	轻量、快速
动态渲染	Selenium / Playwright	兼容复杂前端
异步采集	Scrapy + Splash	高性能分布式
数据存储	SQLite / PostgreSQL	结构化查询
调度任务	APScheduler / Airflow	定时触发
数据清洗	pandas + pyarrow	高效处理
可视化监控	Grafana + InfluxDB	实时看板
替代数据源	akshare	免费、持续更新
文档解析	pdfplumber / Camelot	提取PDF表格
接口模拟	mitmproxy / Postman + Codegen	逆向分析利器

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python获取财务数据_「净利润增长率」使用python获取股票“净利润同比增长率”等“上市公司成长能力”数据 - seo实验室...
2020-12-03 04:20

weixin_39760068的博客通过Python API获取证券数据信息，满足量化交易投资者、数量金融爱好者、计量经济从业者数据需求。本次介绍接口：获取季频成长能力数据：query_growth_data()(以下代码来自官网，侵删)方法说明：查询季频成长能力...
量化价值投资入门：如何用Python实现行业分析？
2025-07-12 21:11

AI量化价值投资入门到精通的博客想象你要开一家奶茶店，不会随便选个...用通俗语言解释量化价值投资中行业分析的核心逻辑；提供可落地的Python代码，带你从0到1完成一次行业分析实战；帮助读者建立"用数据说话"的投资思维，避免凭感觉或听消息做决策。
《投资-394》量化交易 - 编程 - 行业指数和题材指数
2025-11-30 10:45

文火冰糖的硅基工坊的博客类型定义示例行业指数按照上市公司主营业务归类的成分股组合，反映某一行业的整体表现399004.SZ（食品饮料）801120.SI（有色金属）题材指数基于热点概念或政策驱动的主题分类，反映短期资金流向399415.SZ（新能源车...
利用Tushare获取股票数据（全面详细，照着敲就可以）
2022-02-22 19:46

李嘉杰今天学习了吗的博客笔者是在校生，金融专业，对量化投资领域很感兴趣，刚入门。平时闲暇时光读读金融书籍，并用代码进行实战演练。此篇是笔者的第一篇文章，尝试通过Tushare获取股票的日常交易数据，为后续进行股票分析做准备。
手把手教你获取2009-2024年华证ESG评级数据：从Wind到CSDN完整流程
2025-11-01 00:20

DLC#的博客文章手把手教学，涵盖从Wind数据库批量导出2009-2024年数据、使用Python进行数据清洗与结构化，到构建个人ESG数据库并进行典型分析应用（如ESG与财务绩效关联、行业对标）的完整流程，助力研究者高效驾驭ESG数据，...
如何使用tushare pro获取股票数据——附爬虫代码以及tushare积分获取方式
2025-03-02 20:49

m0_74824823的博客 Tushare是一个提供中国股市数据的API接口服务，它允许用户获取包括股票、基金、债券、期货、期权等金融产品的历史数据和实时数据。除此之外，Tushare作为一个为金融数据分析领域量身打造的Python开源工具包，以其...
金融数据迁移指南：将通达信申万宏源本地数据导入SQLite3的完整流程
2025-08-18 03:48

lstm7chronicler的博客本文提供了一套完整的工程化方案，...文章详细解析了二进制文件格式，设计了优化的数据库schema，并给出了高效的Python批量导入脚本与避坑指南，旨在帮助金融IT人员和数据分析师构建可编程、易分析的本土化数据资产。
python量化开发【中级进阶】
2023-12-22 18:47

AI前端高级工程师的博客 2、能够独立完成数据获取、数据采集、数据清洗、数据验证、挖掘特征等。1、证券机构：金融投研及金融工程团队、一般要求硕士以上。3、金融科技：通用策略模型开发、量化交易系统及平台开发。4、会计事务所：普华永道...
全球财经资讯日报（夜间-次晨）2026年3月28日
2026-03-29 11:55

财经资讯数据_灵砚智能的博客本文为2026年03月29日全球财经市场资讯日报，涵盖A股、港股、美股及全球主要市场行情综述，宏观经济数据与行业热点跟踪，以及重要财经新闻汇总。内容基于公开数据自动整理，仅供个人学习交流参考，不构成任何投资...
全球财经资讯日报（夜间-次晨）2026年3月29日
2026-03-30 09:37

财经资讯数据_灵砚智能的博客本文为2026年03月30日全球财经市场资讯日报，涵盖A股、港股、美股及全球主要市场行情综述，宏观经济数据与行业热点跟踪，以及重要财经新闻汇总。内容基于公开数据自动整理，仅供个人学习交流参考，不构成任何投资...
全球财经资讯日报（日间）2026年3月26日
2026-03-26 18:38

财经资讯数据_灵砚智能的博客本文为2026年03月26日全球财经市场资讯日报，涵盖A股、港股、美股及全球主要市场行情综述，宏观经济数据与行业热点跟踪，以及重要财经新闻汇总。内容基于公开数据自动整理，仅供个人学习交流参考，不构成任何投资...
【PTrade】PTrade API 教程：获取股票基础信息 (get_stock_info)
2025-12-03 11:22

EasyQuant的博客本教程将深入讲解 PTrade 的和等函数，教你如何程序化地获取股票的基础信息，如公司名称、上市退市日期、以及所属行业和...在 PTrade 量化交易平台中，获取股票的上市日期和所属行业板块分别需要使用不同的 API 接口。
全球财经资讯日报（日间）2026年3月16日
2026-03-16 22:10

财经资讯数据_灵砚智能的博客本次采集覆盖 105 新闻源，原始 2292 条经去重后保留 1408 条（去重率 38.6%）全文展示 Python 多源采集、智能去重、NLP 情感分析的完整技术流程与统计结果。
Python量化交易入门
2023-04-13 18:19

北极象的博客 Python量化交易知识归纳
全球财经资讯日报（日间）2026年3月24日
2026-03-24 21:05

财经资讯数据_灵砚智能的博客本文为2026年03月24日全球财经市场资讯日报，涵盖A股、港股、美股及全球主要市场行情综述，宏观经济数据与行业热点跟踪，以及重要财经新闻汇总。内容基于公开数据自动整理，仅供个人学习交流参考，不构成任何投资...
计算机大数据毕业设计知识图谱Neo4j+LLM大模型股票行情预测系统量化交易分析预测系统大数据毕设(源码+LW+PPT+讲解)
2025-12-23 11:38

B站计算机毕业设计大学的博客该系统整合结构化数据(财报、行业分类)和非结构化数据(新闻、社交媒体)，通过知识图谱存储实体关系，利用LLM进行文本分析(事件抽取、情感分析)。系统包含知识图谱构建、LLM处理、混合预测模型和可视化四大模块，采用...
计算机毕业设计Django+LLM大模型股票行情预测系统量化交易分析股票爬虫大数据毕业设计(源码+文档 +PPT+讲解)
2025-12-14 11:14

B站计算机毕业设计大学的博客摘要：本文介绍了一个基于Django框架和LLM大模型的股票行情预测系统，该系统通过多模态数据融合（包括实时行情、新闻舆情、社交媒体等），结合LSTM时序模型和微调后的LLM大模型，实现了对沪深300成分股的短期趋势...
价值投资量化框架：ROE指标的动态调整策略
2025-08-01 03:05

光子AI的博客 ROE（净资产收益率）恰好衡量了公司用股东的钱（净资产）赚回利润的能力——就像你开了家奶茶店，投入10万元本金，一年赚2万元，ROE就是20%。但现实中，不同行业的奶茶店（比如一线城市vs三线城市）、不同时期的奶茶...
量化价值投资与资本结构的深度契合
2025-08-03 20:14

光子AI的博客用Python实现从数据获取、因子计算到策略回测的完整流程；通过实证案例验证资本结构因子在价值投资中的超额收益能力。params = (('rebalance_month', 5), # 每年5月调仓（年报发布后）('rebalance_day', 15), # 调仓...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月20日