有关数据压缩文件zip转换hdf5

https://nbviewer.jupyter.org/github/vaexio/vaex-examples/blob/master/medium-airline-data-eda/airline-original-data-conversion.ipynb

新手想要通过以上方式将一个包含120gb数据的zip文件中的csv转换成HDF5，所用的数据为纽约汽车（https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page），但是在进行转换的时候发现每一个csv的columns名称不太一样，主要区别在大小写、单词缺少上，最终导致以下错误ValueError: Usecols do not match columns, columns expected but not found: ['store_and_fwd_flag', 'fare_amount', 'vendor_id','dropoff_datetime', 'surcharge','pickup_latitude', 'mta_tax', 'tip_amount', 'pickup_datetime', 'pickup_longitude', 'tolls_amount','passenger_count', 'rate_code', 'dropoff_latitude', 'payment_type','dropoff_longitude', 'trip_distance', 'total_amount']

想请问一下有没有解决办法，主要每个csv文件都太大，没办法一一打开修改排头。

万分感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Marst Code 2023-06-28 16:55
关注
问题点: columns是不固定的.
分析思路: 数据不统一,需要做个清洗的处理,包括排头的大小写统一和筛选.
处理流程:
预处理:每个CSV都只取第一行,看看所有的排头是什么情况
1.读取数据: 先全部读取数据（默认将第一行的数据作为column）
2.columns标准化处理: 获取DF的columns值, 作标准化的转换(大小写处理),再赋值回DF（DF.column = new_column）
3.筛选数据: .columns标准化后,就不会出现取值的错误了. NEW_DF = DF[[columns]]

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python读取和存储hdf5文件无法使用中文路径 python 有问必答
2021-07-15 14:46

回答 3 已采纳何必要在一棵树上吊死呢？试试h5py,这才是读写hdf文件的正确方式。 >>> import h5py >>> with h5py.File(r'D:\数据文件\h
pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错 python 数据分析
2022-03-27 21:37

回答 1 已采纳 store.put('col_2',sales_df2,format='table', data_columns=True) df_2=store.select('col_2', where=["in
python读取hdf文件报错 python
2022-08-27 21:03

回答 3 已采纳关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Python读取hdf文件
python怎么打开h5文件_h5文件python
2020-11-29 14:14

weixin_39620278的博客广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！腾讯云 api 全新升级3.0 ，该... 这里针对 python api 调用方式进行简单说明。现已支持云服务器（cv...
如何使用GO语言读取HDF5属性，该属性可能是两种不同数据类型之一？ c++
2019-02-21 15:07

回答 1 已采纳 I have confirmed my suspicions and now have a proper answer. The essential problem is that there w
使用hdf5存文件的速度比使用csv存文件的速度还慢是怎么回事？ python
2023-02-21 22:15

回答 1 已采纳如果数据结构是大量的小数组，是有这个可能的
HDF5 library version mismatched error的问题 python
2021-05-08 20:07

回答 1 已采纳降
Python数据分析学习系列六数据加载、存储与文件格式
2022-06-06 09:51

天涯尽头黄鹤楼的博客输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结，...
MATLAB如何读取HDF文件 java matlab 学习方法
2023-03-26 15:28

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 这个问题的回答你可以参考下: https://ask.csdn.net/questions/7621492这篇博客你也可以参考下：解决Matlab
fortran读取.csv文件 python
2023-01-18 19:56

回答 5 已采纳既然可用python读取HDF，那就用python把它处理后生成标准的csv【即单元格中保存单个数据】,不要中间走弯路，你图中的csv每单元格中是列表格式，用fortran处理起来估计麻烦些
python配置环境中出现的问题 pycharm python 有问必答
2022-03-15 15:23

回答 2 已采纳你应该 pip install pyflann-py3
python采用数据文件存储数据_利用python进行数据分析之数据加载存储与文件格式...
2020-12-04 07:21

weixin_39922004的博客在开始学习之前，我们需要安装pandas模块。...此网站上下载的0.16.2版本，下载后解压缩利用dos命令打开对应的文件下，并运行python setup.py install安装，可能会出现报错：error: Microsoft Visual...
keras模型训练输出和测试输出数据维度不一致 keras python 神经网络
2023-02-23 17:17

回答 2 已采纳试下这样：predict2 = model.predict(Xtrain)print(predict2.shape)看下是否训练数据也一样
使用python读取数据科学最常用的文件格式(转)
2020-07-24 14:12

wxfu2010的博客例如，逗号分隔值（CSV）文件格式存储在纯文本的表格数据。 image.png 2、为什么数据科学家需要懂得不同的文件格式？通常，你遇到的文件都取决于你使用的应用。例如，在一个图像处理系统中，你需要将图像...
python打开各种文件格式_使用python读取数据科学最常用的文件格式(转)
2021-01-11 22:42

溯水襄陵的博客 Author：kevinelstriDateTime：...例如，逗号分隔值(CSV)文件格式存储在纯文本的表格数据。image.png2、为什么数据科学家需要懂得不同的文件格式？通常，你遇到的文件都取决于你使用的应用。例如，在一个图像处理系...
没有解决我的问题, 去提问

悬赏问题

¥15 一道python难题
¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度

有关数据压缩文件zip转换hdf5

1条回答 默认 最新

悬赏问题

1条回答默认最新