使用np.load()加载大型npy文件时，如何避免内存不足错误？

**如何避免使用np.load()加载大型npy文件时出现内存不足错误？** 在处理大型npy文件时，直接使用`np.load()`可能会因文件超出系统可用内存而引发“内存不足”错误。为解决这一问题，可以利用`np.load()`的`mmap_mode`参数。通过设置`mmap_mode='r'`或`mmap_mode='c'`，数据将以内存映射方式加载，仅在需要时读取特定部分到内存中，大幅降低内存消耗。此外，可将大数据集拆分为多个小文件分别加载，或使用生成器逐块读取数据进行处理。若数据允许降维或压缩，可提前优化存储格式以减少占用空间。例如，将浮点数从`float64`转换为`float32`能有效减半存储需求。这些方法结合使用，可显著提升大型npy文件处理的效率与稳定性。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Qianwei Cheng 2025-04-09 10:06

关注

1. 问题概述：内存不足错误的常见原因

在处理大型npy文件时，直接使用`np.load()`可能会导致“内存不足”错误。这是因为`np.load()`默认将整个文件加载到内存中，而大型数据集可能远超系统可用内存容量。

以下是可能导致内存不足的主要原因：

文件尺寸过大，超出物理内存限制。
程序同时运行其他高内存需求的任务。
未优化数据存储格式，例如使用`float64`而非`float32`。

为解决这一问题，可以采用多种方法优化数据加载过程。

2. 方法一：使用`mmap_mode`参数优化内存映射

`np.load()`函数提供了一个重要的参数`mmap_mode`，用于启用内存映射（Memory Mapping）。通过设置`mmap_mode='r'`或`mmap_mode='c'`，可以让数据仅在需要时加载到内存中，从而显著降低内存消耗。


import numpy as np

# 使用内存映射加载大型npy文件
data = np.load('large_file.npy', mmap_mode='r')
print(data.shape)  # 访问数据形状不会加载整个数组

注意，`mmap_mode='r'`表示只读模式，适合大多数场景；而`mmap_mode='c'`允许缓存部分数据，适用于频繁访问的场景。

3. 方法二：分块加载与生成器结合

如果数据无法一次性加载到内存中，可以通过分块加载的方式逐块处理数据。这种方法通常与Python生成器结合使用，避免一次性占用过多内存。


def load_in_chunks(file_path, chunk_size=1000):
    data = np.load(file_path, mmap_mode='r')
    for i in range(0, len(data), chunk_size):
        yield data[i:i + chunk_size]

# 示例：逐块处理数据
for chunk in load_in_chunks('large_file.npy', chunk_size=1000):
    process(chunk)  # 替换为实际处理逻辑

通过这种方式，可以灵活控制每次加载的数据量，确保内存占用始终在可控范围内。

4. 方法三：优化数据存储格式

减少数据存储空间的需求可以从源头解决问题。例如，将浮点数从`float64`转换为`float32`，可以有效减半存储需求。此外，还可以考虑以下优化策略：

优化策略	描述
数据类型转换	将`float64`转换为`float32`或`int32`等更小的数据类型。
压缩存储	使用`np.savez_compressed`保存数据以减少磁盘占用。
降维处理	通过PCA或其他技术对数据进行降维，减少冗余信息。

这些优化措施不仅减少了磁盘空间占用，还间接降低了内存使用压力。

5. 方法四：拆分大数据集

对于特别庞大的数据集，可以考虑将其拆分为多个较小的npy文件分别加载。这种方法尤其适用于数据规模超过单个文件合理上限的情况。


# 拆分大型数据集
data = np.random.rand(1000000, 100)
chunk_size = 100000
for i in range(0, len(data), chunk_size):
    np.save(f'chunk_{i // chunk_size}.npy', data[i:i + chunk_size])

拆分后的文件可以根据需要逐一加载和处理，避免一次性加载整个数据集。

6. 解决方案流程图

以下是解决内存不足问题的整体流程图，展示了各种方法的应用顺序：

graph TD; A[开始] --> B{文件大小是否超出内存？}; B --是--> C[使用`mmap_mode`加载]; B --否--> D{是否需要进一步优化？}; D --是--> E[优化数据存储格式]; D --否--> F[结束]; C --> G{是否仍需分块加载？}; G --是--> H[分块加载与生成器结合]; G --否--> I[结束];

根据实际情况选择合适的解决方案，能够有效应对不同场景下的内存不足问题。

报告相同问题？

关注问题

python实现npy格式文件转换为txt文件操作
2020-09-16 14:22

要将单个.npy文件转换为.txt文件，可以使用NumPy库的`numpy.load()`函数来加载.npy文件，然后使用`numpy.savetxt()`函数将其写入.txt文件。以下是一个示例代码： ```python import numpy as np # 加载.npy文件 ...
python中的Pickle文件和npy文件（csdn）————程序.pdf
2021-12-03 10:46

在Python编程中，数据持久化是一个重要的任务，它允许我们将程序运行时的数据保存到文件中，以便后续再次使用或分享。Pickle和Numpy模块提供了两种不同的方式来实现这一目标。 1. **Pickle文件**： - **介绍**：...
Python读取npy文件[项目源码]
2025-11-12 16:22

安装完成后，在Python脚本中就可以通过import语句导入NumPy库，并使用其提供的np.load函数来加载.npy文件。该函数会读取.npy文件并将其内容转换为NumPy数组。一旦.npy文件被加载为NumPy数组，就可以使用NumPy提供的...
Python优化加载大型数据集：高效处理海量数据的终极指南
2025-05-29 22:27

闲人编程的博客 Python高效处理大型数据集指南本文介绍了5种优化大型数据集加载的方法：1）分块加载技术，通过Pandas分批处理数据；2）内存映射技术，利用Numpy直接映射磁盘文件；3）高效文件格式转换，对比CSV/HDF5/Parquet/...
避坑指南：PyTorch自定义Dataset读取npy文件时的5个常见错误
2025-11-07 08:16

g2h3i4j5的博客本文针对PyTorch自定义Dataset读取npy文件时常见的5个错误，提供了详细的避坑指南。重点分析了数据维度混乱、数据类型与归一化、内存映射使用不当、标签处理疏忽以及多进程DataLoader下的并发问题，并给出了经过验证...
numpy的文件存储.npy .npz 文件详解
2020-12-25 10:26

要加载保存的`.npy`文件，我们可以使用`np.load`函数： ```python a_loaded = np.load('test.npy') print(a_loaded) ``` 这将加载`test.npy`文件中的数据并将其赋值给变量`a_loaded`。除了单个数组的保存，Numpy...
Python处理npy文件[可运行源码]
2025-11-13 08:18

当需要读取.npy文件时，只需将.npy文件的路径作为参数传递给`np.load()`函数，就可以将.npy文件中的内容加载到Python程序中。加载后的数据是一个NumPy数组对象，可以像操作其他NumPy数组一样进行操作。保存数组到....
Python读写pickle与npy文件[项目源码]
2025-11-14 06:01

Python是一种广泛使用的高级编程语言，以其简洁的语法和强大的功能在数据处理、科学计算、人工智能等多个领域得到广泛应用。其中，pickle和npy是Python中常用的两种数据存储格式，pickle是一种通用的对象序列化和反...
load()是python文件操作的函数_Python实例：numpy.load()的使用
2021-01-12 05:38

老爸评测的博客 numpy.load()函数从具有npy扩展名(.npy)的磁盘文件返回输入数组。用法：numpy.load(file, mmap_mode=None, allow_pickle=True, fix_imports=True, encoding=’ASCII’)参数：file :file-like对象，字符...
使用npy转image图像并保存的实例
2020-09-16 14:22

`np.load()`函数用于加载numpy数组，它可以从.npy文件中读取数据。例如： ```python npy_full_path = os.path.join(path, npy_list[i]) img = np.load(npy_full_path) ``` 这里的`img`变量现在包含了.npy文件...
python load_Python实例：numpy.load()的使用
2021-02-09 03:59

立志学习的羊习习的博客 numpy.load()函数从具有npy扩展名(.npy)的磁盘文件返回输入数组。用法：numpy.load(file, mmap_mode=None, allow_pickle=True, fix_imports=True, encoding=’ASCII’)参数：file :file-like对象，字符...
PyCharm内存不足？手把手教你调整虚拟内存解决Unable to allocate报错
2025-09-02 09:55

嗑着瓜子听你唠嗑的博客本文针对PyCharm运行大型Numpy数组时...文章指出错误核心在于系统连续物理内存不足或虚拟内存配置不当，并详细指导用户在Windows、macOS和Linux系统中调整虚拟内存（分页文件/交换空间），以彻底解决内存分配失败问题。
cnpy库完全指南：如何在C++中高效读写NumPy的.npy和.npz文件
2024-08-26 09:27

罗愉伊的博客在科学计算和数据分析领域，NumPy的.npy和.npz文件格式因其高效的存储和便捷的数据交换能力而被广泛使用。**cnpy**作为一款轻量级C++库，为开发者提供了在C++环境中直接读写这些NumPy文件的强大功能，完美解决了C++...
npz文件描述.zip
2024-05-19 12:56

在`npz`文件中，每个数组都保存为`.npy`格式，这是一种二进制文件格式，能够高效地存储和加载大型数组。`.npy`文件包含了数组的维度信息、数据类型以及实际的数据值。由于`.npz`文件是ZIP格式，所以它可以包含多个`....
Emotion2Vec+ Large怎么读取embedding.npy？Python调用实例详解
2026-01-16 04:42

PinkFlower67的博客本文介绍了如何在星图GPU平台上自动化部署Emotion2Vec+ Large语音情感识别系统二次开发构建by科哥镜像，并详细解析了其输出的embedding.npy文件的Python读取方法与应用。该镜像的核心应用场景是语音情感识别与分析，...
全网最全文件格式详解：npy/npz/h5/hdf5/pkl/hdf/tfrecord/parquet/csv/txt/feather
2024-10-24 21:51

陈壮实的搬砖日记的博客在数据科学和机器学习领域，选择合适的文件格式来存储和读取数据是至关重要的。不同的文件格式各有优缺点，适用于不同的应用场景，读取速度和空间占用大小也各有不同。以下将对几种常见文件格式及其介绍：
python 实现两个npy档案合并
2020-09-16 14:26

在Python编程中，`npy`文件是一种用于存储NumPy数组的数据格式，它非常适用于大量数值数据的存储和处理。本文将深入探讨如何使用Python来合并两个或多个`.npy`文件，以及如何批量处理类似任务，如合并多个CSV文件。 ...
【NumPy】深入解析numpy中的load方法
2024-04-28 00:25

二七830的博客 NumPy 提供了简单而强大的数据保存和加载机制，这对于处理大型数组数据特别有用。本文介绍了如何使用 NumPy 进行数据的保存和加载，包括.npy和.npz文件的使用。希望本文能够帮助您更有效地管理数据。
python使用技巧(三十):python保存本地npy与C++调用npy
2022-08-09 10:01

云上零度的博客写入 .npy 的优势在于使用低级 C++ I/O（fread 和 fwrite）来提高速度，使用二进制格式来提高大小。.npy 文件头负责指定数组的大小、形状和数据类型，因此不需要指定数据的格式。NumPy 提供了save将数组轻松保存到 ....
【大模型应用开发动手做AI Agent】拿到助手返回的元数据信息
2024-05-27 02:08

光子AI的博客近年来，人工智能领域的技术突飞猛进地发展，深度学习和自然语言处理等技术取得了重要进展。在大型模型应用中，AI Agent（智能代理）已成为一种重要的技术手段。AI Agent 可以帮助我们更好地理解和处理复杂的任务，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月9日