cft0808 2020-12-26 21:37 采纳率: 25%
浏览 793

pyspark dataframe 多列求百分位数

各位大佬,请问一下,我有一个spark的dataframe,1000多列,想求出每一列数据的25%分位数,50分位数和75分为数,

temp_result = original_data.agg(*[F.max(original_data.columns[i]).alias('max')for i in range(1000)],
                        *[F.min(original_data.columns[i]).alias('min')for i in range(1000)],
                        *[F.mean(original_data.columns[i]).alias('mean')for i in range(1000)],
                        *[F.expr('percentile_approx('+ original_data.columns[i] + ', array(0.25))').alias('25%')for i in range(1000)],
                        *[F.expr('percentile_approx('+ original_data.columns[i] + ', array(0.50))').alias('50%')for i in range(1000)],
                        *[F.expr('percentile_approx('+ original_data.columns[i] + ', array(0.75))').alias('75%')for i in range(1000)]).collect()

我这样求的话很耗时,有没有什么好方法?跪求!!!

  • 写回答

4条回答 默认 最新

  • 跳霹雳舞的蒙特卡 2020-12-26 23:27
    关注

    定义一个函数,然后df.apply(function,axis=0)

    评论

报告相同问题?

悬赏问题

  • ¥200 csgo2的viewmatrix值是否还有别的获取方式
  • ¥15 Stable Diffusion,用Ebsynth utility在视频选帧图重绘,第一步报错,蒙版和帧图没法生成,怎么处理啊
  • ¥15 请把下列每一行代码完整地读懂并注释出来
  • ¥15 pycharm运行main文件,显示没有conda环境
  • ¥15 易优eyoucms关于二级栏目调用的问题
  • ¥15 寻找公式识别开发,自动识别整页文档、图像公式的软件
  • ¥15 为什么eclipse不能再下载了?
  • ¥15 编辑cmake lists 明明写了project项目名,但是还是报错怎么回事
  • ¥15 关于#计算机视觉#的问题:求一份高质量桥梁多病害数据集
  • ¥15 特定网页无法访问,已排除网页问题