Spark中approx_percentile与percentile_approx有何区别？

在使用 Apache Spark 进行大数据统计分析时，`approx_percentile` 和 `percentile_approx` 是两个常被混淆的函数。它们都用于计算近似百分位数，但使用方式和适用场景有所不同。`approx_percentile` 是 Spark 3.1 引入的 DataFrame API 方法，适用于列式操作，使用更简洁；而 `percentile_approx` 是 Spark SQL 中的聚合函数，通常用于 SQL 查询，支持更灵活的表达式。本文将深入解析这两个函数的区别，包括语法、性能、精度控制及使用场景，帮助开发者在实际应用中正确选择。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

fafa阿花 2025-10-22 02:50

关注

一、引言：近似百分位数在大数据分析中的重要性

在大数据分析中，计算百分位数（如中位数、四分位数等）是常见的统计需求。由于数据量庞大，精确计算代价高昂，Spark 提供了两种用于近似百分位数的函数：`approx_percentile` 和 `percentile_approx`。它们虽然功能相似，但在使用方式、语法结构和适用场景上存在明显差异。

二、函数概述与基本区别

approx_percentile 是 Spark 3.1 引入的 DataFrame API 方法，适用于 DataFrame 的列式操作，语法简洁直观。
percentile_approx 是 Spark SQL 中的聚合函数，通常用于 SQL 查询，支持更灵活的表达式，如多列、条件表达式等。

三、语法对比与使用方式

以下是两个函数的基本语法对比：

函数名称	语法结构	适用场景
approx_percentile	`DataFrame.approxQuantile("column", [0.25, 0.5, 0.75], 0.01)`	适用于 DataFrame 的列式统计，操作简洁。
percentile_approx	`SELECT percentile_approx(column, array(0.25, 0.5, 0.75), 0.01) FROM table`	适用于 SQL 查询，支持复杂表达式和多列。

四、精度控制与性能分析

两者都允许设置近似误差（relative error），默认为 0.01。误差值越小，计算结果越精确，但计算开销也越大。

性能方面：

`approx_percentile` 在 DataFrame 操作中执行效率更高，适合结构化数据处理。
`percentile_approx` 在 SQL 查询中更灵活，但执行路径可能稍复杂，影响性能。

五、使用场景与最佳实践

根据使用场景选择合适的函数：

使用 DataFrame API 进行批处理分析时，优先选择 approx_percentile。
在 Spark SQL 查询中，尤其是需要结合多列或复杂表达式时，选择 percentile_approx。
对于交互式查询或报表系统，SQL 函数更易集成。
对于数据管道开发，DataFrame API 更适合链式调用。

六、示例代码与实际应用

以下是一个使用 `approx_percentile` 的 DataFrame 示例：


        from pyspark.sql import SparkSession

        spark = SparkSession.builder.appName("PercentileExample").getOrCreate()
        df = spark.createDataFrame([(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)], ["id", "value"])
        result = df.approxQuantile("value", [0.25, 0.5, 0.75], 0.01)
        print(result)  # 输出近似百分位数

以下是使用 `percentile_approx` 的 SQL 示例：


        df.createOrReplaceTempView("data")
        spark.sql("SELECT percentile_approx(value, array(0.25, 0.5, 0.75), 0.01) as percentiles FROM data").show()

七、性能测试与误差分析流程图

以下是一个用于比较两个函数性能与误差的流程图：


        graph TD
            A[生成测试数据集] --> B{选择函数}
            B -->|approx_percentile| C[DataFrame API 调用]
            B -->|percentile_approx| D[SQL 查询调用]
            C --> E[记录执行时间]
            D --> E
            C --> F[记录误差值]
            D --> F
            E --> G[输出性能对比]
            F --> H[输出误差对比]

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Sqark Sql 的percentile_approx计算中位数
2023-09-28 11:22

小辉懂编程的博客 percentile_approx` 聚合函数，用于计算指定列的近似分位数。具体来说，`percentile_approx` 函数的参数包括三个部分：- 第一个参数是要计算分位数的列，这里使用 `$"order_money"` 表示使用名为 "order_money" 的列...
Hive PERCENTILE_APPROX 函数详解
2025-01-20 15:47

_Magic的博客 Hive PERCENTILE_APPROX 函数详解 PERCENTILE_APPROX 是 Hive 中一个重要的函数，用于近似计算数据的百分位数。本文介绍 PERCENTILE_APPROX 的原理、参数以及核心概念 B 值等信息。函数语法 PERCENTILE_APPROX...
Hive分位数函数percentile和percentile_approx区别
2022-10-24 16:56

有数编程随笔的博客分位数函数percentile和percentile_approx区别
hive分位函数percentile和percentile_approx误区和解决方案
2023-07-21 14:47

developer_jiang的博客 percentile和percentile_approx对分位数的计算
percentile_approx函数用法
2021-11-12 09:52

炼丹师666的博客 hive里面有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的字段必须是int类型的，而percentile_approx则是...
Hive SQL 精进系列：PERCENTILE_APPROX 搞定分位数
2025-03-15 14:23

进一步有进一步的欢喜的博客百分位数作为一种常用的统计指标，能够帮助我们了解数据的分布情况。Hive SQL 提供了 `percentile_approx` ...与精确计算百分位数的函数相比，`percentile_approx` 在处理大规模数据时具有更高的性能和更低的内存开销。
spark内置函数笔记
2023-08-29 15:10

shy_01的博客 spark常用的内置函数。
percentile_approx函数
2022-04-19 15:56

weixin_43581124的博客 percentile(col, p)：...percentile_approx(col, p)：percentile_approx则是数值类似型的都可以； percentile_approx(abs(col), array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) 输出多位分位数。 ...
hive percentile_approx原理
2022-07-26 10:31

MORD的博客当目标分位数位于数据集两项中位置时，先根据前后两项数据构建线性函数，再根据目标位置求值。
HiveSQL percentile和percentile_approx 函数计算千分数
2020-07-08 09:35

是杰夫呀的博客 hive里面有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的字段必须是int类型的，而percentile_approx则是...
Spark SQL内置函数
2020-03-11 20:59

流年ln的博客 Spark版本号：2.4.3，Spark SQL命令行输入 show functions; 示例 abs：取绝对值 > select abs(-10); +------+ | _c0 | +------+ | 10 | +------+ acos：反余弦函数 > select acos(0.5); +------------...
hive percentile和percentile_approx 计算千分数
2018-07-26 10:38

yisun123456的博客 percentile函数和percentile_approx函数: 其使用方式为percentile(col, p)、percentile_approx(col, p,B)， .返回col列p分位上的值。B用来控制内存消耗的精度。实际col中distinct的值<B返回的时精确的值。 ...
percentile_approx计算方法
2016-04-22 19:44

coolmsn8786的博客参考: http://blog.sina.com.cn/s/blog_72e6be570101w731.html percentile(array,p)算法一般是：将数组array从小到大排序，计算(n-1)*p的整...
Hive千分位函数percentile()和percentile_approx()
2019-10-30 10:39

C-P-L的博客 percentile函数和percentile_approx函数 percentile(col, p) p∈(0,1) 传入两个参数，第一个参数类型必须是int，一般是某一列的数据，返回的是col列的第p分位的值。 percentile_approx(col,p,B) p∈(0,1) ...
presto的order by与中位数查询
2022-12-16 14:35

HSRYG的博客使用approx_percentile(xxx,0.5)函数的过程中，会发现好像对前置排序的字段是否进行order by 会一影响计算结果。
Spark SQL 内置函数（五）Aggregate Functions（基于 Spark 3.2.0）
2021-12-04 22:12

Shockang的博客 Spark 3.2.0） Spark SQL 内置函数（四）JSON Functions（基于 Spark 3.2.0） Spark SQL 内置函数（五）Aggregate Functions（基于 Spark 3.2.0） Spark SQL 内置函数（六）Window Functions（基于 Spark 3.2.0） ...
JAVA有percentile函数吗_hive 计算分位数
2021-03-08 00:07

榛禾木的博客 hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)其中percentile要求输入的字段必须是int类型的，而percentile_approx则是数值类似型...
Hive SQL优化
2021-07-27 10:56

Jessli&666的博客 percentile函数使用方法：percentile(col,p) percentile要求输入的字段必须是int类型的 percentile_approx函数使用方法：percentile_approx(col,p) percentile_approx则是数值类似类型 percentile_appeox还有一个...
percentile函数mysql_Oracle分析函数PERCENTILE_CONT
2021-01-21 05:05

weixin_39870199的博客查询各部门中薪水分布处于25%、50%、75%位置的人的薪水，percent_rank()是确定排行中的相对位置。查询各部门中薪水分布处于25%、50%、75%位置的人的薪水，percent_rank()是确定排行中的相对位置。create table EMP...
在Doris数据库中，可以使用 PERCENTILE 函数来查询中位数
2024-03-25 19:15

逸云-测试的博客的 50% 百分位数，即中位数。是你想要计算中位数的列，
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月22日