Gabriella919
Gabriella919
2021-03-05 16:32

有关数据压缩文件zip转换hdf5

https://nbviewer.jupyter.org/github/vaexio/vaex-examples/blob/master/medium-airline-data-eda/airline-original-data-conversion.ipynb

新手想要通过以上方式将一个包含120gb数据的zip文件中的csv转换成HDF5,所用的数据为纽约汽车(https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page),但是在进行转换的时候发现每一个csv的columns名称不太一样,主要区别在大小写、单词缺少上,最终导致以下错误ValueError: Usecols do not match columns, columns expected but not found: ['store_and_fwd_flag', 'fare_amount', 'vendor_id','dropoff_datetime', 'surcharge','pickup_latitude', 'mta_tax', 'tip_amount', 'pickup_datetime', 'pickup_longitude', 'tolls_amount','passenger_count', 'rate_code', 'dropoff_latitude', 'payment_type','dropoff_longitude', 'trip_distance', 'total_amount']

想请问一下有没有解决办法,主要每个csv文件都太大,没办法一一打开修改排头。

万分感谢

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答