使用hdf5存文件的速度比使用csv存文件的速度还慢是怎么回事？

使用hdf5存文件的速度比使用csv存文件的速度还慢是怎么回事？
数据量：2000000
下图是使用hdf5存数据的时间

下图是使用csv在相同配置下存相同数据的时间

hdf5代码如下：

#2、信号列表
signal=[]
for i in range (3,10):
    signal.append('KMPL' + str(i) + 'T')
for i in range (3,5):
    signal.append('CMPL' + str(i) + 'T')
for i in range (6,10):
    signal.append('CMPL' + str(i) + 'T')
for i in range(2, 9):
    signal.append('KMPH' + str(i) + 'T')
for i in range(2, 9):
    signal.append('CMPH' + str(i) + 'T')
for i in range(23,26):
    signal.append('SXR' + str(i) + 'D')
print(len(signal))


#3、存储数据,存储成HDF5格式
t0=time.time()
t1= time.perf_counter()

pretip = list(east.get('dim_of(\\' + signal[0] + ')'))
tip = pretip[1400000:]
print(tip[0:3])


f=h5py.File(r"..\Data\Raw Data\98157.hdf5", 'w')
#创建一个名字为炮号的组
g=f.create_group("98157")

#在这个组里面分别创建name为time、信号名的数据集并赋值。
g["time"]=tip
t2=time.time()
print("time tip:", t2 - t0)
for i in range(0, 1):
    predip = list(east.get('\\' + signal[i]))
    dip = predip[len(predip) - len(tip):]
    g[signal[i]]=dip
    t=time.time()
    print("time dip:", t - t2)


t4=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t4-t0)

for key in g.keys():
    print(g[key].name)
    print(g[key].shape)

f.close()

csv代码如下：


# 信号名列表
#K段、C段
signal200=[]
for i in range (1,11):
    signal200.append('KMPL' + str(i) + 'T')
for i in range (1,11):
    signal200.append('CMPL' + str(i) + 'T')
for i in range(1, 9):
    signal200.append('KMPH' + str(i) + 'T')
for i in range(1, 9):
    signal200.append('CMPH' + str(i) + 'T')

def downloadDataKC(shotNumber):
    #K段、C段
    print("KC")
    f = open(r"..\Data\Raw Data\98157.csv", 'w', newline='', encoding='utf-8-sig')
    csv_write = csv.writer(f)
    # 获取信号时间大于0的数据，存入csv文件
    pretip = list(east.get('dim_of(\\' + signal200[0] + ')'))  # SXR信号虽然在UDA上比K/CMPH/L大是250khz，但是从同一棵树上抓下来的时间数据和CMPL这些的时间数据一样，所以就算成一样的时间了
    tip = pretip[1400000:]
    print(len(tip))
    csv_write.writerow(tip)
    t2=time.time()
    print("time:",t2-t1)
    # 释放内存
    del pretip
    # 获取信号强度数据（对应的时刻大于0），存入csv文件
    for i in range(2, 3):
        predip = list(east.get('\\' + signal200[i]))
        dip = predip[len(predip) - len(tip):]
        print(signal200[i])
        print(len(dip))
        # 将数据写入文件
        csv_write.writerow(dip)
        # 释放内存
        del predip, dip
    t3=time.time()
    print("time:",t3-t2)
    # 关闭文件
    f.close()
    # 释放内存
    del tip
    gc.collect()

if __name__=='__main__':
    print(98157)
    east.openTree(mdsTree, 98157)
    t1=time.time()
    downloadDataKC(98157)
    t4 = time.time()
    print("time:",t4-t1)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专注算法的马里奥学长新星创作者: 人工智能技术领域 2023-02-21 22:39
关注
如果数据结构是大量的小数组，是有这个可能的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

全网最全文件格式详解：npy/npz/h5/hdf5/pkl/hdf/tfrecord/parquet/csv/txt/feather
2024-10-24 21:51

陈壮实的搬砖日记的博客在数据科学和机器学习领域，选择合适的文件格式来存储和读取数据是至关重要的。不同的文件格式各有优缺点，适用于不同的应用场景，读取速度和空间占用大小也各有不同。以下将对几种常见文件格式及其介绍：
Python读取mat文件,并转为csv文件的实例
2020-09-20 07:13

在本文中，将详细介绍如何使用Python语言读取mat文件，并将其内容转换为csv文件格式。Mat文件是MATLAB软件的专用数据存储格式，而csv文件则是一种通用的文本文件，通常用来存储表格数据，用逗号分隔字段。Mat文件常...
python:HDF和CSV存储优劣对比分析
2020-12-17 15:15

2. CSV文件的可移植性非常强，几乎所有编程语言都有处理CSV的库，如Python的`pandas`库。 3. CSV文件占用空间相对较小，适合在网络上传输。 4. 但是，CSV不支持复杂数据类型，如数组或嵌套数据结构，且读写大型数据...
大数据编程Cause of death-使用spark scala编程完成的实验源码
2021-10-10 21:47

在本实验中，我们将深入探讨如何使用Apache Spark和Scala编程语言处理大数据问题，特别是通过一个名为" Cause of death"的案例研究。Spark是分布式计算框架，而Scala是一种强大的多范式编程语言，常用于构建高性能的...
python无法打开hdf5_如何在Python中读取HDF5文件
2020-12-18 13:14

weixin_39864591的博客我可以使用h5py读取hdf5文件，但无法弄清楚如何访问文件中的数据。我的密码import h5pyimport numpy as npf1 = h5py.File(file_name,'r+')这可以正常工作并读取文件。但是，如何访问文件对象f1中的数据？如果文件...
【Python】大数据存储技巧，快出csv文件10000倍！
2021-06-20 00:46

风度78的博客 feather，hdf5，parquet和pickle也都很快，比csv文件的读取快10倍不止。参考文献 Tutorial on reading large datasets ...
如何用python打开csv文件_如何用Python读写CSV文件？
2020-11-25 09:10

weixin_39946767的博客繁星淼淼下面是一些最基本的完整示例，如何读取CSV文件以及如何使用Python编写CSV文件。Python 2+3：读取CSV文件纯Python# -*- coding: utf-8 -*-import csvimport sys# Define&...
3_文件处理_
2021-10-04 03:59

- **文件读写**：Pandas的`read_csv()`和`to_csv()`函数可以方便地读写CSV文件，也可以用`read_excel()`和`to_excel()`处理Excel文件。 - **排序和分组**：Pandas的`sort_values()`用于排序，`groupby()`用于按标签...
HDFView-3.1.0-win10vs15_64.zip
2021-12-26 13:15

HDFView是一款强大的开源软件，专门用于浏览和编辑HDF...此外，由于HDF5支持复杂的嵌套结构和自定义数据类型，所以熟悉HDF5的编程接口（如C、Fortran、Python等语言的库）可以帮助更高效地利用HDFView进行数据操作。
Matlab文件操作 txt 二进制 csv XML JSON HDF5 图像音频视频等
2019-11-14 08:10

物联全栈123的博客 matlab支持对多种文件格式进行导入同时也支持低级IO api进行访问标准文件格式文本、电子表格、图像、科学数据、音频和视频、XML 文档de 标准文件格式功能从常见文件格式中读取数据，例如 Microsoft®Excel®...
网页版python怎样加载文件_如何在Python中读取HDF5文件
2020-11-29 06:34

weixin_39709194的博客我可以使用f1读取hdf5文件，但无法弄清楚如何访问文件中的数据。我的密码import h5pyimport numpy as npf1 = h5py.File(file_name,'r+')这可以正常工作并读取文件。但是如何访问文件对象f1中的数据？Sameer Damir ...
10.3 在其他语言程序中读写MATLAB的数据文件.zip
2021-12-22 14:02

- h5py库则用于处理HDF5格式，MATLAB 7.3及更高版本的.mat文件基于这种格式。HDF5是一种通用的、高效的数据存储格式，可以被多种语言支持。 2. **C/C++中的Matlab MEX函数：** - MATLAB提供MEX（MATLAB EXchange...
将波形数据存储至文件并读取绘制波形图
2025-05-28 10:40

常见的波形数据格式包括文本格式（如CSV），二进制格式（如MAT或HDF5），以及专用格式（如波形示波器的专有格式）。读取文件中的波形数据则是一个逆向的过程。首先需要根据存储格式选择合适的读取方法，然后将数据...
高手必读！如何正确使用Pandas库提升项目的运行速度？
2020-12-08 12:28

菜鸟学Python的博客在本例中，使用格式参数将csv文件中特定的时间格式传入Pandas的to_datetime中，可以大幅的提升处理效率。 >>> @timeit(repeat=3, number=100) >>> def convert_with_format(df, column_name): ... return pd....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月21日

使用hdf5存文件的速度比使用csv存文件的速度还慢是怎么回事？

1条回答 默认 最新

问题事件

1条回答默认最新