pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错

在使用pandas以HDF5数据格式进行文件存储时，使用.put方法写入的dataframe数组存储模式为“table”，之后想使用select方法获取部分index下部分columns中满足特定条件的数据，代码实现如下：

import numpy as np
import pandas as pd
date_series=pd.date_range('2000-01-01',periods=8000)
date_arr=pd.Series(date_series.values)
arr_1=np.random.randint(10000,100000,(8000,5))
sales_df1=pd.DataFrame(arr_1,columns=['A','B','C','D','E'])
arr_2=np.random.randint(100000,1000000,(8000,5))
sales_df2=pd.DataFrame(arr_2,columns=['F','G','H','I','J'])
store=pd.HDFStore('mydata.h5')
store['idx'],store['col_1']=date_arr,sales_df1
store.put('col_2',sales_df2,format='table')
print(store['idx'],store['col_1'],store['col_2'],sep='\n')
df_1=store.select('col_2',where=['index>1000 and index<=2000'],columns=['G','H'])  #  可以正常运行
print(df_1) 
df_2=store.select('col_2', where=["index>1000 and index <=5000 and store['col_2']['G'] >= 500000"], columns=['G', 'H'])  
#  运行报错：TypeError: 'Series' objects are mutable, thus they cannot be hashed
print(df_2)

如果想要实现筛选出col_2中index在1000~5000之间，columns为G和H中G列值大于500000的数据应该如何编写代码呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
greatofdream 2022-03-27 15:41
关注
store.put('col_2',sales_df2,format='table', data_columns=True) df_2=store.select('col_2', where=["index>1000 and index <=5000 and G >= 500000"], columns=['G', 'H'])
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

pandas将千万行数据分块保存为CSV文件，保存为HDF5文件
2022-06-15 09:51

Hi-CWJ的博客从数据库读取数据保存为CSV，然后转换为HDF5，用于后面数据快速处理
用pandas读写HDF5文件
2019-07-22 01:26

Johnson0722的博客 Pandas的HDFStore类k可以将将DataFrame存储在HDF5文件中，以便可以有效地访问它，同时仍保留列类型和其他元数据。它是一个类似字典的类，因此您可以像读取Python dict对象一样进行读写。 HDF5支持压缩存储，使用的...
Pandas数据分析之数据读写和存储
2024-07-13 15:21

咸鱼不是闲鱼的博客数据分析的第一步，成长的一小步，加油！
Python数据分析NumPy和pandas（十七、pandas 二进制格式文件处理）
2024-10-31 02:25

FreedomLeo1的博客 HDF5 是一种备受推崇的文件格式，用于存储大量科学阵列数据。如果是在本地处理大量数据，可以更多的使用 PyTables 和 h5py，但是基于以上的学习内容还不够，需要深入了解他们的功能。由于许多数据分析问题都是 I/O ...
Pandas库：数据分析的神兵利器
2024-06-12 12:44

2401_85673878的博客 Pandas是一个功能强大的Python数据处理库，通过Pandas，用户可以轻松读取和写入多种格式的数据文件，包括CSV、Excel、SQL数据库、JSON和HDF5等。在Pandas的基础操作中，我们学习了如何使用read_csv()read_sql(), 和...
Pandas使用教程 - 数据读取与写入
2025-02-07 23:30

闲人编程的博客通过本章的学习，我们详细了解了如何利用 Pandas 实现数据的读取与写入操作。CSV 文件基本读取与写入方法，如何设置分隔符、列名、数据类型、缺失值等参数。分块读取大文件的技巧，有效控制内存占用。Excel 文件利用...
pandas 数据载入、存储及文件格式
2019-07-15 14:32

Raymone_的博客数据载入、存储及文件格式1. 文本格式数据的读写 1. 文本格式数据的读写将表格型数据读取为 DataFrame 的 pandas 解析函数：函数描述 read_csv 从文件、URL或文件型对象读取分隔好的数据，...
hdf5 mysql,当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定块大小读取了块，为什么仍然仍然出现MemoryError？...
2021-02-23 08:14

一路走来516的博客 Problem description:I use python pandas to read a few large CSV file and store it in HDF5 file, the resulting HDF5 file is about 10GB.The problem happens when reading it back. Even though I tried to r...
Pandas教程：Pandas各种数据源操作大全
2024-09-03 07:03

旦莫的博客 Pandas 是一个高效的数据分析库，支持多种数据源的读取和写入。每种数据源都有其独特的特点和使用场景。以下是 Pandas 支持的主要数据源及其操作方法，包括如何在 Series 和 DataFrame 之间进行转换。
Python数据分析必备-Pandas库汉化手册.docx
2022-10-30 01:07

7. **HDF5 (PyTables)**: HDFStore提供了对HDF5文件的支持，如`read_hdf()`用于读取数据，`put()`和`append()`用于写入数据，`get()`用于获取特定键的数据，`select()`用于按条件查询，`keys()`返回所有存储对象的键...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错

1条回答 默认 最新

问题事件

1条回答默认最新