DISTINCT去重时为何NULL值被视为相同？

在使用 `SELECT DISTINCT` 对列进行去重时，为何多个 `NULL` 值会被视为“相同”而仅保留一行？例如 `SELECT DISTINCT col FROM tbl` 中，若 `col` 包含三行 `NULL`，结果只返回一个 `NULL`。这看似违反直觉——毕竟 SQL 中 `NULL = NULL` 返回 `UNKNOWN`（非 `TRUE`），且 `NULL` 语义上表示“未知值”，逻辑上不应默认相等。那么，`DISTINCT` 的去重机制是否与常规比较逻辑矛盾？其底层是依赖 `IS NOT DISTINCT FROM` 语义，还是通过特殊空值归类策略（如哈希/排序阶段将 `NULL` 统一映射到同一桶）实现？不同数据库（如 PostgreSQL、MySQL、SQL Server）对此行为是否完全一致？该设计是为保障集合语义完整性（关系代数中“重复元组”包含 `NULL` 相同场景），还是历史兼容性妥协？理解这一点，对编写可预期的去重逻辑、调试数据倾斜及构建 NULL-safe 的唯一约束至关重要。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

薄荷白开水 2026-04-10 11:20

关注

```html

一、现象层：DISTINCT 对 NULL 的“去重”行为是显式标准行为

执行 SELECT DISTINCT col FROM tbl 时，若 col 含 3 个 NULL，结果仅返回 1 行 NULL——这不是数据库 Bug，而是 SQL 标准（ISO/IEC 9075）第 7.12 节明确规定的语义：DISTINCT 基于“值等价性”（value equivalence），而非“相等比较”（=）。SQL 标准定义：a IS NOT DISTINCT FROM b 当且仅当 a 和 b 均为 NULL，或二者非空且相等。该谓词返回 TRUE（非 UNKNOWN），是 DISTINCT 底层比较的逻辑基础。

二、语义层：NULL 在集合操作中代表“同一未知”，而非“任意不同值”

关系代数中，元组重复性判定不依赖于可计算的布尔等式，而依赖于不可区分性（indistinguishability）：两个 NULL 在无附加上下文时无法被区分为“不同未知”，故视为同一占位符；
若将 NULL 视为“未知但唯一”，则关系模型将丧失可计算性——例如 GROUP BY col 将无法聚合，因每个 NULL 都需独立分组，违背集合封闭性；
此设计保障了 DISTINCT、GROUP BY、UNION、INTERSECT 等集合操作在含空值场景下的语义一致性。

三、实现层：各主流数据库均采用 IS NOT DISTINCT FROM 语义，但策略略有差异

数据库	底层比较机制	排序时 NULL 位置	哈希处理方式	是否完全符合 SQL 标准
PostgreSQL	显式使用 `IS NOT DISTINCT FROM`	`NULLS FIRST/LAST` 可控，默认 `FIRST`	所有 `NULL` 映射至同一哈希桶（如 0x0）	✅ 严格遵循
SQL Server	内部等价于 `(a = b) OR (a IS NULL AND b IS NULL)`	`NULL` 总排在最前（无论 ASC/DESC）	哈希函数对 `NULL` 返回固定值（如 -1）	✅ 语义一致
MySQL 8.0+	优化器重写为 `IS NOT DISTINCT FROM` 等价逻辑	默认 `NULL` 最小（ASC 时在首）	使用专用 NULL 桶（B-tree/Hash Aggregate 中独立分支）	✅ 兼容标准
Oracle	历史遗留：早期用 `NVL(col, '###')` 模拟，现已内建等价判断	`NULL` 默认最大（ASC 时在尾）— 注意与 PG/MySQL 差异！	统一归入 “NULL key” 分区	⚠️ 行为一致，但排序顺序为兼容性保留

四、工程层：理解 NULL 去重机制对高阶开发的关键影响

去重逻辑可预测性：编写 SELECT DISTINCT a, b 时，(1, NULL) 与 (1, NULL) 被合并，但 (1, NULL) 与 (1, '') 永不合并 —— 因后者是确定的空字符串；
数据倾斜调试：在分布式引擎（如 Spark SQL、Presto）中，大量 NULL 会集中到单个 reducer（因哈希归一化），引发严重倾斜，需预处理（如 CASE WHEN col IS NULL THEN uuid() ELSE col END）；
唯一约束构建：普通 UNIQUE(col) 允许多个 NULL（SQL 标准允许），但若需“NULL-safe 唯一性”，须用函数索引：CREATE UNIQUE INDEX idx_col_nn ON tbl ((COALESCE(col, '<>')))；
ETL 数据清洗：DISTINCT 不能替代业务级空值归一化 —— 例如地址字段的 NULL、''、'N/A' 需先标准化再 DISTINCT。

五、演进层：该设计是关系理论完整性与工程实践的共同选择，非历史妥协

有人误认为“NULL 合并”是早期数据库为简化实现的让步，实则不然。Codd 在 1979 年《Extending the Database Relational Model》中即指出：“在关系代数中，元组的重复必须可判定；若允许任意两个 NULL 不等价，则 π_A(R)（投影）将无法定义输出基数”。现代数据库（包括 DuckDB、ClickHouse）均主动强化此语义：ClickHouse 的 distinct 引擎强制所有 NULL 归桶；DuckDB 在 GROUP BY 中甚至支持 NULLS NOT DISTINCT 扩展语法以显式控制。这印证其本质是为支撑关系模型可计算性而必需的语义基石，而非权宜之计。

六、验证层：通过标准 SQL 测试用例确认跨库一致性

-- 标准验证脚本（可在任意 ANSI 兼容 DB 运行）
CREATE TABLE test_nulls (x INT);
INSERT INTO test_nulls VALUES (1), (NULL), (NULL), (2), (NULL);
SELECT x, COUNT(*) FROM test_nulls GROUP BY x; -- 结果：(1,1), (NULL,3), (2,1)
SELECT DISTINCT x FROM test_nulls;              -- 结果：1, NULL, 2 （共3行）
-- 关键验证：以下表达式在所有主流 DB 均返回 TRUE
SELECT (NULL IS NOT DISTINCT FROM NULL) AS is_equivalent;

七、可视化层：DISTINCT 去重的执行路径对比（含 NULL 处理）

flowchart LR A[Scan Table] --> B{Row Iterator} B --> C[Value Extract: col] C --> D{Is col NULL?} D -- Yes --> E[Assign NULL-Token: 0x0000] D -- No --> F[Compute Hash of Value] E & F --> G[Hash Partitioning] G --> H[Per-Partition Sort/Aggregate] H --> I[Compare via IS NOT DISTINCT FROM] I --> J[Output Unique Rows]

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

SQL SELECT DISTINCT 语句详解：精准去重的艺术
2025-04-04 21:39

威哥说编程的博客当你只关心查询结果中每个唯一值时，DISTINCT能有效地帮助你精简结果集。：指定你想要查询的列。table_name：查询的目标表。是一个强大的工具，能够帮助我们精准地从查询结果中去除重复数据。在日常开发中，理解其...
【MySQL】MySQL去重查询详解
2025-08-08 00:11

自学也学好编程的博客本文详细介绍了MySQL中的三种去重方法：DISTINCT关键字、GROUP BY子句和ROW_NUMBER()窗口函数。DISTINCT适用于简单去重场景，能够去除查询结果中的重复行；GROUP BY不仅能去重，还可结合聚合函数进行分组统计；ROW_...
脑语言v0.5.8 2500令【单字编程】
2022-07-11 06:55

脑语言的博客这是脑语言v0.5.8版的2500个单字（也称为“令”与“一令”），通过【单字编程】（并不仅是中文编程，而是混合英文关键字，但以单字为主的命名）也许是英文不太好时又希望能写代码的其中一种方式。我在做脑语言...
SQL中的DISTINCT、SQL DISTINCT详解、DISTINCT的用法、DISTINCT注意事项
2025-02-21 22:36

（上海）编程李老师的博客 DISTINCT 是 SQL 中用来返回唯一不重复结果集的关键字。它通常用于 SELECT 语句中，可以指定一个或多个列进行去重，并返回唯一的结果。当你在使用 SELECT 查询数据时，可能会得到包含重复行的结果集。为了去除这些...
MySQL DISTINCT去除及多字段实例讲解（第一部分）
2024-04-23 09:30

李长安的博客的博客当从表中查询数据时，您可能会得到重复的行。为了删除这些重复行，可以在SELECT语句中使用DISTINCT子句。使用DISTINCTcolumnsFROMtable_nameWHERE。
【MapReduce】数据去重、多表查询、倒排索引、单元测试等案例编程
2021-07-22 23:40

lys_828的博客数据去重、多表查询、倒排索引、单元测试等案例编程1 数据去重2 多表查询3 倒排索引4 单元测试 1 数据去重相当于实现SQL里面的distinct的功能。废话不说多，直接进行代码编程，创建一个demo.distinct的package，...
京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！
2024-10-10 10:26

lxw1844912514的博客结论distinct的使用group by的使用distinct和group by原理推荐group by的原因结论先说大致的结论（完整结论在文末）：在语义相同，有索引的情况下：group by和distinct都能使用索引，效率相同。在语义相同，无索引的...
为什么你的报表数据总出错？真相藏在这3个SQL数值函数里
2025-10-27 08:52

SimProceed的博客第一章：为什么你的报表数据总出错？真相藏在这3个SQL数值函数里在日常数据分析中，报表数据出现偏差往往让人困惑。许多开发者排查了连接条件、聚合逻辑甚至源数据质量，却忽略了SQL中三个关键的数值处理函数：`...
Java数组去重的20种实现方式——指导AI解决不同问题的思路
2026-05-03 07:51

刀法如飞的博客这篇文章介绍了Java中数组去重的20种实现方法，重点分析了5种核心策略及其性能差异。主要内容包括：基础循环方法（6种）：使用双循环索引比较、List.indexOf、前后遍历删除等原始方式时间复杂度O(n²)，适合教学...
大数据编程技术——期末复习
2020-12-09 09:16

威少的书童的博客 Scala语言特点 Lambda演算的概念类（静态类和动态类）、方法和函数的声明数据类型，Int、String、Double、Boolean、Array、List、Map、Tuple 常量和变量的声明运算符，特别注意Lambda运算符选择语句 for循环语句...
sql按时间取去重最近_SQL 去除重复、获取最新记录
2020-12-23 18:55

薛颠的博客应用中常会有需要去除重复的记录，或者获取...1、去除重复记录，需要条件为有一列值为不同(如id不同)eg：去除用户表信息，users 表具有字段： id ，username ,password如果username相同则视为相同记录，应去除重复保...
【数据库必备知识】零基础带你快速上手SQL语言
2022-11-11 21:28

慧天城寻的博客只需要学习一篇博文的时间, 带你入门SQL语言, 熟悉SQL增删改查等操作, 赶快收藏吧!
Java函数式编程实战：从代码重构到云原生架构演进
2025-07-05 17:29

递归尽头是星辰的博客本文通过电商系统真实案例，展示如何用Java函数式编程解决重复代码难题，并深入探讨其在Serverless架构中的创新应用。
重拾Java基础知识：函数式与流式编程
2022-01-03 23:34

成为大佬先秃头的博客函数式与流式编程前言函数式编程新旧比对 Lambda表达式方法引用未绑定的方法引用构造函数引用函数式接口多参数函数式接口高阶函数闭包 List 闭包的内部类函数组合柯里化函数纯函数式编程流式编程新旧...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日