lytcreate. 2024-07-31 09:53 采纳率: 33.3%
浏览 8

pandas内存优化或替代方案

pandas处理数据内存如何优化或者替代方案

现在单台服务器的内存是500GB,pandas需要处理的数据约2亿条,处理时很大概率由于内存占用过高,导致服务器崩溃或假死,需要寻求一种尽可能不大面积修改代码,但是能够优化内存的方案。
目前,已经测试过的方案有:
1.dask,单机和集群都试过,感觉效果不理想,还是会有内存问题
2.modin,一行代码就可以加速pandas的库,单机和集群本地测试过,虽然做计算时很快,但是感觉在数据输出to_csv,to_sql时才会进行运算,感觉类似于dask的compute,输出数据的时间有时候比pandas整个流程运行完还长
3.数据类型转换及优化

还有其他可行性方案吗,需要尽可能少改动pandas的代码

  • 写回答

1条回答 默认 最新

  • IT工程师_二师兄 2024-07-31 15:01
    关注

    你把内存使用率排行截图单独发给我

    评论

报告相同问题?

问题事件

  • 创建了问题 7月31日