连续变量转换为百分位数。

论文原文（翻自英文）：把所有的连续变量转换成横截面的百分位数。对于每个变量，按年对CSMAR中的所有公司进行排名，并按99缩放百分位数排名(从0到99)。因此，缩放后的秩为从0到1,0.50表示观测值处于总体中位数。该程序比其他程序(如对数变换和样本修剪)更有效，可以避免偏度和异常值问题。

想问问这个操作通俗地讲是什么？一般是怎么实现呀？会有什么缺点嘛。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-10-28 19:38
关注
【以下回答由 GPT 生成】

对于将连续变量转换为百分位数的方法，可以按照以下步骤进行：

首先，读取您的数据集，可以使用Python中的pandas库来加载数据。
根据您的需求，选择要转换为百分位数的连续变量列。假设您选择了一个名为"variable"的变量列。
对于每个年份，首先计算该变量列在该年份中的排名，可以使用pandas的rank()函数。这将为每个观测值分配一个排名。
将排名结果进行99缩放，使其范围在0到99之间。具体来说，可以使用以下公式进行缩放：scaled_rank = (rank - 1) * 99 / (total_observations - 1)，其中rank是观测值的排名，并且total_observations是该年份中的总观测数。
缩放后的排名将表示观测值在总体中的相对位置，0.50表示观测值处于中位数位置。

在Python中实现这个方法可以使用以下代码示例：

import pandas as pd # 读取数据集，假设变量列名为"variable"，年份列名为"year" data = pd.read_csv("your_dataset.csv") # 对数据进行分组，根据年份计算排名并缩放 data["scaled_rank"] = data.groupby("year")["variable"].rank() - 1 data["scaled_rank"] = data.groupby("year")["scaled_rank"].transform(lambda x: x * 99 / (x.count() - 1)) # 输出转换后的数据 print(data)

使用这种方法的一个潜在缺点是，如果在数据集中存在极端异常值或者极度多重的分布，转换为百分位数可能导致信息丢失，并且排名分布可能不准确。此外，该方法对于非正态分布的数据可能会产生偏差，因为它主要基于排序而不是实际的度量值。因此，在使用这种方法之前，建议先对数据集进行适当的数据探索和处理。

【相关推荐】

这个问题的回答你可以参考下: https://ask.csdn.net/questions/679487
这篇博客也不错, 你可以看下网络分块部署，最后图像矩阵拼接时中间有条缝隙，过渡不自然的问题解决方法
您还可以看一下张飞老师的硬件开发与电路设计速成入门到精通视频教程第一部课程中的分析整流桥电路，电容计算小节, 巩固相关知识点
除此之外, 这篇博客: 【数字图像处理思考】第三章图像的空域变换中的 1、假设你有两张同一建筑物的照片，这两张照片是不同的人在同一天站在同一地点上拍下的，时间相差4个小时，在这4个小时中，有人从该建筑物的某个窗口射击了三枪。负责调查的侦探不知道哪间办公室是事发房间，而对胶片的肉眼视觉检查也无法表明在这段时间内有哪扇窗户被打开或关上，你能帮助他吗？部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

r语言中数据框处理变量获得连续变量 r语言
2021-03-16 21:48

回答 1 已采纳参考：https://stackoverflow.com/questions/54814910/count-number-values-in-range-in-r `mapply` 函数和 `tid
R 二分变量和连续变量的关系可视化 r语言
2023-01-17 15:42

回答 1 已采纳在 GLMM 中，如果二分变量作为因变量，连续变量作为自变量，并且连续变量的主效应显著，那么可以使用以下方法可视化：对于连续变量，可以使用箱线图或者密度图来可视化其分布情况。如果连续变量是数值型的，可
连续变量标准化中心化 r语言
2023-01-15 14:43

回答 1 已采纳望采纳！！！点击回答右侧采纳即可！！是的，如果数据之间相差不大，你可以不做标准化和中心化。如果你想要处理，你可以尝试使用离散化的方法，将评分分成几个等级，比如1-3，4-6，7-9，10，然后将它们转
R语言——基础知识呕心沥血大汇总
2020-10-15 01:17

笼中小夜莺的博客 R语言基础知识汇总
R 线性混合效应模型，只有主效应显著，且为连续变量 r语言
2023-01-16 20:27

回答 2 已采纳线性混合效应模型是一种混合模型，通常用于分析不同级别上的观察值之间的关系。在你描述的情况中，两组数据都只有一个主效应显著，且为连续变量，这意味着这两组数据的反应时和错误率与这个主效应有关。做emme
在Go编程语言中定义变量
2016-03-29 07:33

回答 2 已采纳 The first one i := 1 is called short variable declaration. It is a shorthand for regular variable
R 混合效应模型如何对主效应（连续变量）显著做事后分析或者说明？ r语言
2023-01-08 17:07

回答 1 已采纳在 R 中，你可以使用 emmeans 包来进行事后分析。当主效应是连续变量时，你可以使用 emmeans 函数来查看每个水平的均值和其他统计信息（如标准误差、下界和上界）。例如假设你已经拟合了一个
R语言-基础
2023-02-14 08:03

code_ent的博客 rnorm（n）-生成n个符合标准正态分布的随机变量 install.packages（“包”）-安装“包” 指向 source（“~/脚本名.R”）-运行“脚本名” 计算 mean（x）-计算均值 sd（x）-求标准差 summary（x）-获取...
【R语言】选取特定名称的变量 r语言
2021-06-02 14:54

回答 1 已采纳 A<-data1_1[50:200,c(1,4)] 这样子提取1-4列。
求编程语言中各个变量有多少字节？ c语言
2020-05-13 09:03

回答 1 已采纳这里不能用switch，字符串比较要这么写 ``` #include #include int getByteofType(char t[]) { if (strcmp(t,
R语言把数据转化成矩阵后，分类变量名称后多了个1 r语言
2023-02-07 21:27

回答 3 已采纳如果分类变量名称后多了一个1，那么你需要修改分类变量名称来解决这个问题。在R中，可以使用以下代码来修改列名： colnames(data)[colnames(data) == "gender1"]
Python编程从零基础到进阶
2024-03-26 22:03

RL明日的博客提示：宏名可以定义为LEAP_YEAR，形参为y，既定义宏的形式为 #define LEAP_YEAR(y) （读者设计的字符串）print("L")else:print("N")法二:print("L")else:print("N")求方程的根，用三个函数分别求当b^2-4ac大于0、...
vb编程语言的ocx控件怎么从主程序exe文件的内存中拿到变量？
2016-12-06 08:45

回答 2 已采纳你定义成全局变量，作为属性传给控件，控件调用返回
R语言知识点整理
2023-08-02 16:52

小孔不爱coding的博客 R语言知识点整理 R语言复习资料
python数学编程 pdf,Python数学编程
2021-04-27 06:54

脱渊的博客商品参数Python数学编程定价 59.00 出版社人民邮电出版社版次 1出版时间 2020年01月开本 16开作者阿米特·萨哈装帧平装-胶订页数字数ISBN编码 9787115522719重量内容介绍本书将程序设计和数学巧妙地结合起来，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月28日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

连续变量转换为百分位数。

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新