如何统计Pandas中每列缺失值的数量？

如何统计Pandas中每列缺失值的数量？一个常见问题是：当使用 `isna()` 或 `isnull()` 方法结合 `sum()` 统计缺失值时，若数据量较大或包含多种数据类型（如字符串、数值、时间等），部分列的缺失值可能未被正确识别，尤其是存在空字符串 `' '` 或占位符如 `'N/A'`、`'NULL'` 时。这些值虽非 `NaN`，但实际代表缺失信息，导致统计结果偏低。此外，调用 `df.isna().sum()` 后输出结果若列数较多，难以快速定位缺失严重的字段。如何准确识别各类“伪非空”缺失值，并以清晰方式展示每列缺失数量及占比，是实际数据清洗中的典型挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
希芙Sif 2026-01-04 16:00
关注
1. 基础缺失值统计：使用 isna() 与 sum()

在Pandas中，最基础的缺失值统计方式是调用 df.isna().sum() 或等价的 df.isnull().sum()。这两个方法会返回一个Series，展示每列中标准缺失值（如 NaN、None）的数量。

import pandas as pd import numpy as np # 示例数据 data = { 'A': [1, 2, np.nan, 4, 5], 'B': ['apple', '', 'banana', 'N/A', None], 'C': [np.nan, 'NULL', '2023-01-01', '2023-01-02', ''], 'D': [10, 20, 30, np.nan, 50], 'E': [None, ' ', 'hello', 'world', 'NULL'], 'F': [pd.NaT, '2023-01-03', '2023-01-04', None, '2023-01-05'], 'G': ['', 'data', 'info', 'test', ''], 'H': [0, 1, 2, 3, 4], 'I': ['N/A', 'null', '', 'valid', 'missing'], 'J': [np.nan, np.nan, np.nan, np.nan, np.nan] } df = pd.DataFrame(data) print(df.isna().sum())

输出结果仅能识别真正的 NaN 和 None，而无法捕捉空字符串或文本型占位符，因此存在统计盲区。

2. 深入分析：“伪非空”缺失值的识别

实际业务数据中，常出现以字符串形式存在的缺失标识，例如：''、'N/A'、'NULL'、'null'、' '? 等。这些值虽非 NaN，但语义上等同于缺失。需通过自定义逻辑统一转换为 NaN 再进行统计。

空字符串：''
空白字符：' ', ' '
常见占位符：'N/A', 'NULL', 'null', 'NA', 'Missing'

可通过 replace() 方法将这些值替换为 np.nan。

3. 综合缺失值清洗与标准化处理

为了全面识别所有类型的缺失信息，建议在统计前对数据进行预清洗。以下是一个通用函数，用于将多种“伪缺失”值标准化为 NaN：

def standardize_missing_values(df, placeholders=None): if placeholders is None: placeholders = ['', 'N/A', 'NULL', 'null', 'NA', 'Missing', ' ', ' '] df_cleaned = df.copy() for col in df_cleaned.columns: if df_cleaned[col].dtype == 'object': df_cleaned[col] = df_cleaned[col].astype(str).str.strip() df_cleaned[col] = df_cleaned[col].replace(placeholders, np.nan) return df_cleaned df_standardized = standardize_missing_values(df) print("标准化后的缺失值数量：") print(df_standardized.isna().sum())

4. 缺失值数量与占比的结构化输出

当列数较多时，原始的 sum() 输出不易快速判断问题严重性。可构建结构化表格，包含缺失数量、占比，并按占比排序以便优先处理高缺失列。

列名缺失数量缺失占比(%)
A 1 20.0
B 2 40.0
C 2 40.0
D 1 20.0
E 3 60.0
F 2 40.0
G 2 40.0
H 0 0.0
I 3 60.0
J 5 100.0

5. 自动化缺失值分析报告函数

结合上述逻辑，封装一个完整的缺失值分析函数，支持自动清洗、统计、排序和可视化建议。

def missing_report(df, placeholders=None, sort_by='missing_count', ascending=False): df_std = standardize_missing_values(df, placeholders) total = df_std.shape[0] missing_data = pd.DataFrame({ 'column': df_std.columns, 'missing_count': df_std.isna().sum().values, 'missing_ratio': (df_std.isna().sum().values / total) * 100 }) missing_data['missing_ratio'] = missing_data['missing_ratio'].round(2) if sort_by == 'missing_count': missing_data = missing_data.sort_values('missing_count', ascending=ascending) elif sort_by == 'missing_ratio': missing_data = missing_data.sort_values('missing_ratio', ascending=ascending) return missing_data report = missing_report(df, sort_by='missing_ratio', ascending=False) print(report)

6. 可视化辅助决策：使用Mermaid流程图描述处理流程

以下是完整缺失值识别与处理的流程逻辑，适用于团队协作与文档说明。
graph TD A[原始DataFrame] --> B{是否存在伪缺失值?} B -- 是 --> C[定义占位符列表] C --> D[使用replace()转换为NaN] D --> E[执行isna().sum()] B -- 否 --> E E --> F[计算缺失占比] F --> G[生成结构化报告] G --> H[按缺失程度排序] H --> I[输出可读性表格或图表]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

列名	缺失数量	缺失占比(%)
A	1	20.0
B	2	40.0
C	2	40.0
D	1	20.0
E	3	60.0
F	2	40.0
G	2	40.0
H	0	0.0
I	3	60.0
J	5	100.0

报告相同问题？

关注问题

Python 统计 CSV 文件中每列的缺失值数量
2025-03-29 00:45

代码去流浪fc的博客 CSV 文件通常用于存储表格数据，每一行代表一个记录，每一列代表一个特征或属性。然而，由于各种原因（如数据收集错误、传输问题等），...本文将介绍如何使用 Python 的 Pandas 库来统计 CSV 文件中每列的缺失值数量。
Pandas缺失值处理——《Python数据分析库Pandas》
2024-05-25 02:10

Python老吕的博客在某些情况下，可能需要根据数据的特定情况...# 自定义函数来填充缺失值# 假设列A的缺失值可以根据列B和列C的均值来填充else:return series.fillna(method='ffill') # 其他列使用前向填充# 应用自定义函数填充缺失值。
pandas计算含缺失值中列平均值_Python数据分析 | 缺失数据.(10)
2021-01-08 09:41

东方鸿永的博客在某些编程语言中使用NA表示。根据数据的来源，缺失值可能是空存字符串(‘’)或数值(比如88或99)。在Pandas值使用NaN表示缺失值。Pandas中的NaN值来自NumPy库，在NumPy中，缺失值有几个表达形式：NaN、NAN或者nan，...
pandas缺失值处理.pptx
2021-09-15 07:38

在数据分析领域，Pandas库是Python编程语言中的一个不可或缺的工具，它提供了高效的数据结构和数据分析功能。在处理数据时，经常会遇到缺失值的问题，这可能是由于数据收集不完整、记录错误或者某些值未被观测到等...
python - Pandas缺失值处理
2024-06-09 13:19

爱吃汉堡的派大星的博客缺失数据有多种表现形式数据库中，缺失数据表示为NULL在某些编程语言中用NA或None表示缺失值也可能是空字符串''或数值0在Pandas中使用NaN表示缺失值Pandas中的NaN值来自NumPy库，NumPy中缺失值有几种表示形式：NaN，...
手把手教你用pandas处理缺失值
2021-04-19 00:25

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤人有悲欢离合，月有阴晴圆缺。导读：在进行数据分析和建模的过程中，大量的时间...
Pandas缺失值处理
2024-09-29 14:16

骑着居居追飞机的博客缺失数据有多种表现形式数据库中，缺失数据表示为NULL在某些编程语言中用NA或None表示缺失值也可能是空字符串''或数值0在Pandas中使用NaN表示缺失值Pandas中的NaN值来自NumPy库，NumPy中缺失值有几种表示形式：NaN，...
DAY4 初识pandas库与缺失数据的补全
2025-07-04 19:38

Irene.ll的博客 3.1 df.isnull() 这个方法返回一个布尔矩阵，也是dataframe对象，其中True表示对应位置的值是缺失值，False表示对应位置的值不是缺失值。pandas.read_excel() 函数用于读取 Excel 文件（.xlsx 或 .xls），支持多种...
Python Pandas 处理缺失值的最佳实践
2025-05-17 21:44

AI Python 编程的博客在实际的数据收集过程中，由于各种原因（如数据录入错误、传感器故障、数据传输问题等），数据集中往往会存在缺失值。这些缺失值可能会影响数据分析的准确性和机器学习模型的性能。本文的目的是全面介绍如何使用 ...
30秒时间了解清楚pandas过滤、补全缺失值
2021-03-25 14:09

Python金牌大牛的博客 pandas对象的所有描述性统计信息默认情况下是排除缺失值的。在学习进行缺失值处理之前，我们先来看一下什么是缺失值，为什么会出现缺失值？ 缺失值—— 是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

如何统计Pandas中每列缺失值的数量？

1条回答 默认 最新

1. 基础缺失值统计：使用 isna() 与 sum()

2. 深入分析：“伪非空”缺失值的识别

3. 综合缺失值清洗与标准化处理

4. 缺失值数量与占比的结构化输出

5. 自动化缺失值分析报告函数

6. 可视化辅助决策：使用Mermaid流程图描述处理流程

问题事件

1条回答默认最新

1. 基础缺失值统计：使用 `isna()` 与 `sum()`