王麑 2025-12-25 19:45 采纳率: 98.7%

已采纳

如何用Python计算全市场等权PE百分位？

如何用Python计算全市场等权PE百分位时，常遇到的问题是：在获取大量股票PE数据后，如何处理缺失值与异常值？例如部分ST股或亏损企业PE为负或极大值，直接计算等权平均会导致偏差。此外，对全市场成分股动态调整（如新股、退市）的处理也影响历史分位准确性。如何结合Tushare或AKShare高效获取清洗数据，并用scipy.stats.percentileofscore合理计算当前等权PE所处分位？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

请闭眼沉思 2025-12-25 19:45

关注

1. 问题背景与数据获取挑战

在量化投资分析中，全市场等权PE（市盈率）是衡量整体股市估值水平的重要指标。计算其历史百分位有助于判断当前市场是否处于高估或低估状态。然而，在使用Python进行该指标构建时，常面临如下核心问题：

如何从Tushare或AKShare高效获取全市场个股的PE数据？
部分股票（如ST股、亏损企业）的PE为负值或极大异常值，影响等权平均的准确性。
缺失值处理不当会导致样本偏差。
成分股动态变化（新股上市、退市、暂停交易）对历史序列一致性构成挑战。

以A股市场为例，每日有超过5000只证券变动，若不妥善处理这些数据质量问题，最终得到的PE分位数将失去参考意义。

2. 数据获取：Tushare vs AKShare 对比分析

维度	Tushare	AKShare
数据覆盖	全面，需积分权限	开源免费，覆盖较全
更新频率	实时/日频	日频为主
API稳定性	较高（商业支持）	社区维护，偶有波动
安装便捷性	pip install tushare	pip install akshare
历史数据回溯	支持多年回溯	依赖接口实现

推荐策略：对于长期研究项目，可结合两者优势——用Tushare获取高质量历史快照，AKShare用于日常增量更新。

3. 异常值识别与清洗方法论

PE异常主要表现为：

PE ≤ 0：代表公司亏损或无盈利，不具备传统估值意义。
PE > 1000：极端炒作或财务异常导致，显著拉高均值。
NaN值：停牌、未披露财报或数据源缺失。

清洗逻辑应遵循以下流程：

import pandas as pd
import numpy as np

def clean_pe_series(pe_series):
    # 过滤负值和极大值（设定阈值）
    pe_clean = pe_series[(pe_series > 0) & (pe_series < 1000)]
    # 填补剩余缺失（如有）
    pe_clean = pe_clean.dropna()
    return pe_clean

进一步优化可引入Winsorization（缩尾处理），减少极端值影响而不完全剔除。

4. 成分股动态调整机制设计

全市场范围并非静态集合。新股上市、老股退市、ST标记变更都会改变有效样本池。为保证历史可比性，建议采用“交易日快照”方式存储每日有效的股票列表及对应PE。

graph TD A[获取当日全部正常交易股票] --> B[调用AKShare/Tushare获取PE] B --> C[清洗异常PE值] C --> D[计算等权PE均值] D --> E[存入历史时间序列] E --> F{是否为最新日？} F -- 是 --> G[输出当前分位] F -- 否 --> H[继续循环]

关键点在于每次计算都基于当日实际可交易且数据完整的股票集合，避免未来函数偏差。

5. 百分位计算实现：scipy.stats.percentileofscore 应用

假设已有历史等权PE序列 history_pe 和当前值 current_pe，可通过以下代码计算其所处分位：

from scipy import stats
import numpy as np

# 示例数据：过去一年的每日等权PE
history_pe = np.random.lognormal(mean=2.5, sigma=0.4, size=250)
current_pe = 48.6

# 计算当前PE在历史分布中的百分位
percentile = stats.percentileofscore(history_pe, current_pe, kind='weak')

print(f"当前等权PE: {current_pe:.2f}，位于历史 {percentile:.1f}% 分位")

参数 kind='weak' 表示 ≤ current_pe 的比例，符合金融语义下的“低于或等于”的分位定义。

6. 工程化建议与性能优化

面对高频批量请求，应注意以下最佳实践：

使用缓存机制（如Redis或本地Pickle）避免重复抓取相同日期数据。
并发获取多只股票数据（配合 asyncio + aiohttp 提升AKShare效率）。
建立数据库表结构存储每日 cleaned_pe_snapshot(date, stock_code, pe_ttm)，便于回测分析。
定期校验数据完整性，例如对比沪深两市总市值与Wind/同花顺基准。

完整流程应封装成模块化函数，支持配置化运行：

class MarketPEAnalyzer:
    def __init__(self, data_source='akshare'):
        self.source = data_source
    
    def fetch_daily_pe(self, trade_date):
        # 实现具体数据拉取逻辑
        pass
    
    def compute_equal_weighted_pe(self, pe_series):
        cleaned = clean_pe_series(pe_series)
        return np.mean(cleaned)
    
    def get_current_percentile(self, current_pe, historical_pe_list):
        return stats.percentileofscore(historical_pe_list, current_pe, kind='weak')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

计算机毕业设计项目推荐，基于PHP的社区医保管理系统的设计与实现 37251（开题答辩+程序定制+全套文案）上万套实战教程手把手教学JAVA、PHP，node.js，C++、python、大屏
2024-06-29 07:45

毕业设计703的博客社区医保管理系统总体可以分为医院使用的管理端和普通用户使用的客户端，管理端主要是包括对通知公告、医保资讯等数据的维护和管理，缴纳医保、账户充值、药品信息、购药信息、报销申请、报销记录，系统开发完成之后...
PHP语言，MySQL数据库；基于PHP的社区医保管理系统的设计与实现37251（免费领源码）计算机毕业设计项目推荐万套实战教程JAVA、PHP，node.js，C++、python等
2024-08-01 08:30

bysj703的博客社区医保管理系统总体可以分为医院使用的管理端和普通用户使用的客户端，管理端主要是包括对通知公告、医保资讯等数据的维护和管理，缴纳医保、账户充值、药品信息、购药信息、报销申请、报销记录。
python量化开发【中级进阶】
2023-12-22 18:47

AI前端高级工程师的博客 2、能够独立完成数据获取、数据采集、数据清洗、数据验证、挖掘特征等。1、证券机构：金融投研及金融工程团队、一般要求硕士以上。3、金融科技：通用策略模型开发、量化交易系统及平台开发。4、会计事务所：普华永道...
价值投资必看：如何用量化方法筛选高质量资产
2025-08-09 19:46

AI量化价值投资入门到精通的博客本福德·格雷厄姆将投资行业比作“精妙绝伦的商业世界”，而巴菲特则用“模糊但重要的安全边际”刻画了价值投资的本质。快速穿透数据迷雾，将研究资源聚焦在最可能符合高质量资产标准的对象上。强制性的财务指标门槛...
《量化价值投资成长价值：资产合理配置的重要法则》
2025-08-03 16:53

光子AI的博客《量化价值投资成长价值：资产合理配置的重要法则》一、引言：为什么你赚不到“稳稳的幸福”？ 1. 一个扎心的投资痛点你有没有过这样的经历... 对每个因子进行“百分位排名”（将指标转换为0-1的分数） # PE：越低越...
量化价值投资特征工程实战：用Python构建ROE衍生特征（附完整代码）
2025-08-02 01:21

光子AI的博客本文将以ROE衍生特征工程为核心，手把手带你完成从“财务数据获取→特征设计→Python实现→特征评估”的全流程。我们不仅会解析ROE衍生特征的财务逻辑（如杜邦分解、趋势分析、行业对比），还会提供可直接复用的...
价值投资量化框架：ROE指标的动态调整策略
2025-08-01 03:05

光子AI的博客 ROE（净资产收益率）恰好衡量了公司用股东的钱（净资产）赚回利润的能力——就像你开了家奶茶店，投入10万元本金，一年赚2万元，ROE就是20%。但现实中，不同行业的奶茶店（比如一线城市vs三线城市）、不同时期的奶茶...
python语言培训是密封式的吗
2021-12-03 15:54

毛毛648python教学的博客自由防守队员可以无关项在参与化简时,下列说服正确的是治疗室无菌持物钳的更换时间是配置Apache服务时，若网站主目录需要自定义，则必须使用配置项（） I/O接口芯片8255A有（）个可编程（选择其工作方式的）通道...
【信息科学与工程学】【研发体系】第十篇半导体电路设计——124 光计算系统（集成光子与光电协同）第三部分纯光交换与光互连系统 02 数据中心光交换
2025-06-29 15:45

flyair_China的博客实现目标构建一个高带宽、低延迟、可线性扩展、具备多路径冗余和高效负载均衡的数据中心网络物理连接框架，以支撑云服务、大数据和AI计算等动态负载。工作流程完整步骤 1. 需求分析：确定规模（服务器数量）...
掌握五大编程语言与可视化工具的量化交易策略实战
2025-09-23 11:52

王奥雷的博客通过继承类并定义lines与next()方法，可实现任意数学表达式的向量化计算。参数类型描述windowint计算波动率的标准差窗口长度，默认20日vol_regimeline输出线，表示是否处于高波动状态（1=是，0=否）上述代码构建了一...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月25日