Spark stat.approxQuantile函数的用法

不明白stat.approxQuantile函数是干嘛用的，百度了半天也没有找到想要的结果，
官方文档写的也非常简单：
approxQuantile(String col, double[] probabilities, double relativeError)
计算 DataFrame 的数值列的近似分位数。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

spark做描述性统计
2018-11-13 23:22

k_wzzc的博客 spark datafram 的 “summary” 在做数据探索性分析的时候，有几个比较重要的数值，，它们能简要的概括数据的分布情况，它们包括分位数、均值、最值等。在R语言中，有个summary函数，可以返回这些数据摘要本文所...
Hadoop+Spark大数据预处理实战指南（附代码）
2025-12-10 10:32

AI智能探索者的博客 Hadoop+Spark是大数据预处理的“黄金组合”——Hadoop提供可靠的存储，Spark提供高效的计算。本文从概念基础到代码实现，从性能优化到生产部署，覆盖了预处理的全流程。希望读者通过本文掌握“从原始数据到可用数据...
基于Spark的大数据领域数据可视化实践
2025-08-19 01:48

AI开发架构师的博客通过解析Spark的分布式计算模型如何解决大数据可视化的核心挑战（数据规模、处理速度与交互需求），本文提供了系统化的架构设计方法、性能优化策略和实际应用指南。内容涵盖静态与动态可视化的实现路径、多语言API...
Spark+特征工程：大数据场景下的特征处理最佳实践
2025-05-08 02:40

光子AI的博客 Spark通过分布式内存计算和弹性分布式数据集（RDD）架构，将特征处理效率提升2-3个数量级。本文聚焦Spark在特征工程全流程（数据清洗→特征提取→转换→选择）的技术实现，覆盖结构化数据（CSV/Parquet）、半结构化...
大数据面试必考题：Spark数据倾斜问题总结和优化措施
2024-10-23 23:19

大模型大数据攻城狮的博客在Spark分布式计算环境中，
大数据Spark实战第四集 spark优化和使用 Spark Streaming
2022-04-30 09:35

办公模板库素材蛙的博客在前面的课时中，我们学习了 Spark 的用法和原理，今天这个课时主要介绍 Spark 两个比较重要的优化提升项目，从这两个项目中可以看出 Spark 的优化思路。这节课与前面的课时有所不同，主要介绍一些比较细的优化思路...
Spark-core/SparkSQL 简单使用总结
2022-08-16 16:13

yunpeng.zhou的博客 Spark-core总结 RDD对象特性和RDD常用算子总结（SparkContext对象创建、RDD对象创建、Transformation算子Action 算子分区操作算子 RDD优化缓存 cache与checkpoint RDD共享变量与累加器共享变量（广播变量与累加器）...
【Apache Spark 】第 3 章Apache Spark 的结构化 API
2022-10-11 10:28

Sonhhxg_柒的博客讨向 Apache Spark 添加结构背后的主要动机，这些动机如何导致创建高级 API（DataFrames 和 Datasets），以及它们在 Spark 2.x 中跨组件的统一。我们还将了解支持这些结构化高级 API 的 Spark SQL 引擎。当在早期的 ...
比较全面的spark_sql语法运用（直接看代码，速学速过）
2024-07-05 15:30

wan_qin6的博客【代码】比较全面的spark_sql语法运用（直接看代码，速学速过）
PySpark基础 —— SparkSQL
2022-10-18 18:52

巷子里的猫X的博客一、快速入门 import findspark from pyspark.sql import SparkSession findspark.init() spark = SparkSession.builder.getOrCreate() # 无法同时运行多个SparkContext sc = spark.sparkContext 类描述 Struct...
Apache Spark Java 示例：数据清洗
2025-07-15 16:26

csdn_tom_168的博客本文介绍了使用Apache Spark进行电商订单数据清洗的Java实现。示例代码演示了如何处理常见数据质量问题，包括缺失值、异常值、格式问题和重复数据。通过创建包含各种问题的模拟数据集，展示了完整的数据清洗流程：从...
利用Spark在大数据领域实现高效数据处理
2025-07-11 19:07

AI大数据智能洞察的博客 大数据处理模式摘要：本文系统解析Apache Spark作为下一代大数据处理引擎的架构原理、性能优化机制及实践应用方法。从分布式计算的第一性原理出发，构建从基础抽象（RDD）到高级API（DataFrame/Dataset）的完整...
Spark+Scala对螺蛳粉数据进行部分指标的计算
2023-11-19 23:39

db_lq_2020的博客 Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面象对象编程的各种特性，将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中...
大数据领域数据产品的深度学习应用
2025-08-31 01:20

光子AI的博客 median_age = raw_data.stat.approxQuantile("user_age", [0.5], 0.01)[0] clean_data = raw_data.fillna({"user_age": median_age, "item_category": "unknown"}) # 3. 异常值处理：过滤点击时间在合理范围内的数据...
大数据领域数据产品的特征工程实践
2025-12-30 19:58

AI实战架构笔记的博客在大数据场景下，特征工程的核心是“以业务为导向，以规模化为目标”——既要做出能提升模型性能的特征，也要做出能被业务团队理解、能长期复用的特征。“好的特征不是‘做’出来的，而是‘挖’出来的——挖业务的...
大数据领域数据预处理的常见问题及解决方案
2025-09-04 09:51

AI Python 编程的博客 大数据的"4V"特性带来独特挑战：Volume（体量）、Velocity（速度）、Variety（多样性）和Veracity（真实性）这四个特性使得大数据预处理比传统数据处理更加复杂和具有挑战性。预处理对下游流程的影响。
Spark入门之DataFrame/DataSet
2019-06-27 00:39

天地不仁以万物为刍狗的博客 Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子（可跳过） Spark工具箱 1.Datasets: Type-Safe Structured APIs 2.Structured Streaming 3.Machine ...
大数据领域数据清洗的技术挑战与应对
2025-08-26 22:23

AI软件工程实践的博客这些“错误”放在大数据里，就是脏数据——它们会让推荐系统“乱推荐”、决策模型“犯错误”，甚至让企业损失金钱。数据清洗的目的，就是像“摘菜”一样，把大数据中的“烂叶子、虫子、沙子”去掉，让数据变得“干净...
Spark结构化API—DataFrame，SQL和Dataset
2020-03-12 21:08

书忆江南的博客一、结构化API概述 1. 结构化API是处理各种数据类型的工具，可处理非...大多数结构化API均适用于批处理和流处理，这意味着使用结构化API编写代码时，几乎不用改动代码就可以从批处理程序转换为流处理程序（反之亦...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月19日

Spark stat.approxQuantile函数的用法

0条回答 默认 最新

问题事件

0条回答默认最新