请教聚宽winsorize_med等三个数据处理函数用Python公共模块如何实现？

请教聚宽winsorize_med、neutralize、standardlize三个数据处理函数用Python公共模块如何实现？用于自家机器进行xgboost多因子发掘时因子处理用，谢谢。

#去极值
factor_data=winsorize_med(factor_data, scale=5, inf2nan=False,axis=0)
#中性化处理
factor_data=neutralize(factor_data, how=['sw_l1', 'market_cap'], date=date, axis=0)
#标准化处理
 factor_data=standardlize(factor_data,axis=0)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

不良使新星创作者: python技术领域 2023-06-07 09:02

关注

聚宽的这些数据处理函数没有对外公开它们的实现细节。不过，你可以查阅一些公共机器学习模块，例如Scikit-Learn或StatsModels，来看看是否有类似的实现。

以下是示例代码：

import numpy as np
from sklearn.preprocessing import StandardScaler

def winsorize_med(x, scale=5, inf2nan=False, axis=0):
    # 计算 median 和 mad
    med = np.median(x, axis=axis, keepdims=True)
    mad = np.median(np.abs(x - med), axis=axis, keepdims=True) / 0.6745
    # 进行 winsorization
    lower = med - scale * mad
    upper = med + scale * mad
    if inf2nan:
        x[x < lower] = np.nan
        x[x > upper] = np.nan
    else:
        x[x < lower] = lower[x < lower]  # 用 lower 值替换小于 lower 的值
        x[x > upper] = upper[x > upper]  # 用 upper 值替换大于 upper 的值
    return x


def neutralize(x, how=None, date=None, axis=0):
    # 计算中性化矩阵
    weights = x[how].groupby(date).transform(np.linalg.pinv)
    # 计算残差
    residuals = x - np.dot(weights, x[how])
    # 如果对列进行操作，则最后返回的是wide表，需要重新设定列名
    # 因为原中性化矩阵索引都是ticker，不是columnName
    if axis == 1:
        residuals.columns = x.columns
    return residuals

def standardlize(x, axis=0):
    scaler = StandardScaler()
    if axis == 0:
        # 将每列数据标准化
        x = scaler.fit_transform(x)
    elif axis == 1:
        # 将每行数据标准化
        x = scaler.fit_transform(x.T)
        x = x.T
    return x

请注意，这里的实现只是一个可能的实现，可能不完全与聚宽的实现相同。因此，你需要对这些函数进行测试来确保它们能够满足你的需求。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

MED-AND-SANC.zip_MED_matlab MED_med程序_数据消噪_轴承消噪
2022-07-15 04:22

标题中的“MED-AND-SANC.zip_MED_matlab MED_med程序_数据消噪_轴承消噪”表明这是一个关于MATLAB编程的压缩包，主要用于滚动轴承的微弱故障信号诊断，特别是涉及了数据消噪技术。这里的核心知识点包括： 1. **...
Python数据分析常用模块的介绍与使用
2024-05-08 07:56

鲜于言悠905的博客 Python数据分析模块提供了丰富的工具和库，可以帮助数据科学家和工程师更加高效地进行数据处理、清洗、分析、建模等工作，从而更好地探索数据、发现数据背后的规律和趋势，为业务决策和优化提供有力的支持。Python...
PyPI 官网下载 | python_daily_med-0.1.0b50-py2-none-any.whl
2022-02-05 08:19

总之，`python_daily_med`是一个面向Python 2的医学相关库，其具体功能可能包括数据处理、分析等。通过PyPI下载并使用，可以方便地集成到Python项目中，提高开发效率。在使用过程中，如果遇到问题，可以查阅库的文档...
python实现的分析并统计nginx日志数据功能示例
2020-12-23 11:23

本文实例讲述了python实现的分析并统计nginx日志数据功能。分享给大家供大家参考，具体如下：利用python脚本分析nginx日志内容，默认统计ip、访问url、状态，可以通过修改脚本统计分析其他字段。一、脚本运行方式 ...
python实现excel函数_用Python实现excel 14个常用操作
2020-11-20 23:32

weixin_39647773的博客原博文2020-01-28 21:20 −https://zhuanlan.zhihu.com/p/30072060...相关推荐2019-12-08 20:02 −利用Python读取和修改Excel文件（包括xls文件和xlsx文件）——基于xlrd、xlwt和openpyxl模块from openpyxl.style ...
med2d_MED_降噪_
2021-10-03 07:59

标题中的"med2d_MED_降噪_"表明这是一个与二维信号处理相关的程序，特别是使用了MED（Median Filter，中值滤波器）方法来进行降噪处理。中值滤波是一种非线性的信号处理技术，特别适用于消除图像或信号中的椒盐噪声...
med2_MED_
2021-10-03 04:59

综上所述，“med2_MED_”项目可能是一个用MATLAB编写的医疗数据处理工具，已经过数据验证，具备处理实验数据的能力，适用于医学研究或医疗设备数据的分析。在实际应用中，这样的程序需要考虑数据安全、隐私保护以及...
python在winsorize中遇到缺失值的问题
2022-04-15 20:49

Zhhhhhh～的博客 python数据分析winsorize遇到缺失值的解决
python 等距曲线_使用hive和python多种方式实现PSI的计算
2020-12-01 01:54

weixin_39823269的博客 PSI计算 python实现上次我们讲到用python实现psi的计算。本文是PSI系列的最后一篇文章，主要讲计算模型分的PSI，连续以及离散特征的PSI，以及用hive实现PSI的计算，最后会在kaggle上给出一个简单的实例。那我们开始...
med2d_故障诊断_MED算法_降噪_熵_最小熵解卷积
2021-09-11 16:36

标题中的"med2d_故障诊断_MED算法_降噪_熵_最小熵解卷积"表明这个压缩包文件包含了一个名为"med2d"的MATLAB脚本，用于实现基于MED（Minimum Entropy Deconvolution，最小熵解卷积）算法的故障诊断和信号降噪。...
用python处理excel的基本语法_用Python实现excel 14个常用操作
2020-11-20 20:27

weixin_39994949的博客原博文2020-01-28 21:20 −https://zhuanlan.zhihu.com/p/30072060...相关推荐2019-12-08 20:02 −利用Python读取和修改Excel文件（包括xls文件和xlsx文件）——基于xlrd、xlwt和openpyxl模块from openpyxl.style ...
matlab反投影函数代码-faster_med_imaging:更快的生物医学成像重建的集体尝试
2021-06-02 12:27

matlab反投影函数代码fast_med_imaging 使用 Python 等进行更快的生物医学成像重建的集体尝试。当前功能时间（使用CPU）： fastRadon.py: 氡变换：~ 22 秒背投：~ 2.5 秒 Radon_backproj.py：氡变换：~ 62 秒 ...
基于Python实现手写文字识别
2023-10-23 09:18

摔跤猫子的博客基于Python实现手写文字识别，对学生日常作业及考试试卷中的手写内容进行自动识别，实现学生作业、考卷的线上批阅及教学数据的自动分析，提升教职人员工作效率，促进教学管理的数字化和智能化。
extd_med_benchmark
2021-04-11 04:19

extd_med_benchmark 要求 python3.7 CUDA / 10.0 cudnn / 7.5-cu10.0 安装requirements.txt： $ cd extd_med_benchmark $ pip install requirements.txt 下载原始数据集确定存储原始数据的位置，并适当设置/...
聚宽API文档
2019-02-19 19:47

牧童短笛0739的博客感谢您使用JoinQuant（聚宽）量化交易平台，以下内容主要介绍聚宽量化交易平台的API使用方法，目录中带有"♠" 标识的API是 "回测环境/模拟"的专用API，不能在投资研究模块中调用。内容较多，可...
L5_NDVI_Med_NoBareSoil.txt
2024-11-21 16:06

在文档"L5_NDVI_Med_NoBareSoil.txt"中，提供了关于如何使用Google Earth Engine (GEE) 对Landsat 5图像进行处理的详细教程。教程包含了创建Landsat 5图像集合的复合过滤，云掩码处理，以及无裸露土壤的NDVI（归一化...
AI 大模型基础：医学影像大模型（Med-PaLM、CheXNet）的原理、实现与应用（二）
2025-07-08 19:10

猿享天开的博客医学影像大模型：Med-PaLM与CheXNet的技术解析本文深入探讨了医学影像AI领域的两个代表性模型。Med-PaLM作为多模态模型，创新性地结合Vision Transformer（ViT）和语言模型（BERT），通过跨模态注意力机制实现影像-...
如何用Python制作学术动图？（数据+代码）
2020-08-29 16:01

看海实验室的博客 2019年年初，某厂年会的一个视频火爆全网，里面说出了无数职场人士的心声：干活的累死累活,到头来干不过写PPT的！也有网友表示：写好PPT和做好PPT在职场上就是一种能力，一份好的PPT是内容好加视觉美观。在...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月6日

请教聚宽winsorize_med等三个数据处理函数用Python公共模块如何实现？

2条回答 默认 最新

问题事件

2条回答默认最新