pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错

在使用pandas以HDF5数据格式进行文件存储时，使用.put方法写入的dataframe数组存储模式为“table”，之后想使用select方法获取部分index下部分columns中满足特定条件的数据，代码实现如下：

import numpy as np
import pandas as pd
date_series=pd.date_range('2000-01-01',periods=8000)
date_arr=pd.Series(date_series.values)
arr_1=np.random.randint(10000,100000,(8000,5))
sales_df1=pd.DataFrame(arr_1,columns=['A','B','C','D','E'])
arr_2=np.random.randint(100000,1000000,(8000,5))
sales_df2=pd.DataFrame(arr_2,columns=['F','G','H','I','J'])
store=pd.HDFStore('mydata.h5')
store['idx'],store['col_1']=date_arr,sales_df1
store.put('col_2',sales_df2,format='table')
print(store['idx'],store['col_1'],store['col_2'],sep='\n')
df_1=store.select('col_2',where=['index>1000 and index<=2000'],columns=['G','H'])  #  可以正常运行
print(df_1) 
df_2=store.select('col_2', where=["index>1000 and index <=5000 and store['col_2']['G'] >= 500000"], columns=['G', 'H'])  
#  运行报错：TypeError: 'Series' objects are mutable, thus they cannot be hashed
print(df_2)

如果想要实现筛选出col_2中index在1000~5000之间，columns为G和H中G列值大于500000的数据应该如何编写代码呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
greatofdream 2022-03-27 23:41
关注
store.put('col_2',sales_df2,format='table', data_columns=True) df_2=store.select('col_2', where=["index>1000 and index <=5000 and G >= 500000"], columns=['G', 'H'])
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错 python 数据分析
2022-03-27 21:37

回答 1 已采纳 store.put('col_2',sales_df2,format='table', data_columns=True) df_2=store.select('col_2', where=["in
python使用pandas往xlsx文件写入数据报错：最大不能超过1048576行。如何解决这个问题呢？ python 大数据
2022-11-13 01:23

回答 3 已采纳 Excel2003(xls)最大行列是65536行，256列。Excel2007(xlsx)以后版本最大行列是1048576行，16384列(xml格式)。你的程序没错，是excel格式自身的限制。可
使用pandas的read_csv读取csv文件时出错，数据只有最后20几列 python 数据分析
2022-06-26 10:32

回答 1 已采纳示例： df = pd.read_csv(fpath) 直接读取会使文件中第一列数据默认为df的index，使列名和列数据发生错位。可以添加以下参数： index_col : int or seque
pandas将千万行数据分块保存为CSV文件，保存为HDF5文件
2022-06-15 17:51

Hi-CWJ的博客从数据库读取数据保存为CSV，然后转换为HDF5，用于后面数据快速处理
pandas中使用groupby()函数对文本数据进行分类汇总时出现的问题 python
2022-02-11 11:01

回答 1 已采纳 df=pd.DataFrame({'idx':[1,1,2],'a':['张三','李四','wangwu'],'b':['张三','李','wangwu'],'c':['张三','李四','wang
使用python中pandas进行数据分析 python 回归数据分析
2023-02-03 14:42

回答 2 已采纳 “该回答引用ChatGPT”参考下面的解决方案，请测试代码的可行性，如果可行，还请点击采纳，感谢支持！ import pandas as pd import matplotlib.pyplot as
使用pandas读取数据文件到名为datas的DatasFrame python
2022-05-24 14:40

回答 1 已采纳 import pandas as pd datas = pd.read_csv('test1.csv', header=None)
用pandas读写HDF5文件
2019-07-22 09:26

Johnson0722的博客 Pandas的HDFStore类k可以将将DataFrame存储在HDF5文件中，以便可以有效地访问它，同时仍保留列类型和其他元数据。它是一个类似字典的类，因此您可以像读取Python dict对象一样进行读写。 HDF5支持压缩存储，使用的...
python读取和存储hdf5文件无法使用中文路径 python 有问必答
2021-07-15 14:46

回答 3 已采纳何必要在一棵树上吊死呢？试试h5py,这才是读写hdf文件的正确方式。 >>> import h5py >>> with h5py.File(r'D:\数据文件\h
pandas 为什使用loc()函数找不到对应的数据？ python 数据分析
2021-10-23 15:11

回答 1 已采纳 df.loc[:, '一本分数线']
用pandas对数据进行预处理 python 数据分析机器学习
2022-10-11 10:46

回答 2 已采纳 [[dataset.columns[1], dataset.columns[2]]] 这句吗，只保留这两列，结果没什么影响，占用内存应该会小一点
pandas 数据载入、存储及文件格式
2019-07-15 22:32

Raymone_的博客数据载入、存储及文件格式1. 文本格式数据的读写 1. 文本格式数据的读写将表格型数据读取为 DataFrame 的 pandas 解析函数：函数描述 read_csv 从文件、URL或文件型对象读取分隔好的数据，...
pandas入门（6）——数据加载、存储与文件格式
2022-08-04 11:17

Annaaphq的博客数据储存、加载与文件格式
python对数据集进行排序_关于python：在大型数据集的pandas中排序
2020-12-17 13:28

weixin_39623355的博客 data = data.sort(columns=["P_VALUE"], ascending=True, axis=0)有没有一种快速的方法可以按给定的列对我的数据进行排序，该列只考虑数据块，不需要在内存中加载整个数据集？您的数据存储在哪里？有多大？什么是...
pandas.DataFrame写入hdf5时出现的错误
2020-11-28 17:15

pldcat的博客在将df写入hdf5的时候...store = pd.HDFStore(self.path+filename,mode="w")#mode缺省值为'a',table模式下不会替换没有写入的键，而w重建 for k in self.loaded_list[filename].keys(): store.put(k,self.loaded_lis
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

悬赏问题

¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 unity第一人称射击小游戏，有demo，在原脚本的基础上进行修改以达到要求
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line

pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新