pandas处理数据内存如何优化或者替代方案
现在单台服务器的内存是500GB,pandas需要处理的数据约2亿条,处理时很大概率由于内存占用过高,导致服务器崩溃或假死,需要寻求一种尽可能不大面积修改代码,但是能够优化内存的方案。
目前,已经测试过的方案有:
1.dask,单机和集群都试过,感觉效果不理想,还是会有内存问题
2.modin,一行代码就可以加速pandas的库,单机和集群本地测试过,虽然做计算时很快,但是感觉在数据输出to_csv,to_sql时才会进行运算,感觉类似于dask的compute,输出数据的时间有时候比pandas整个流程运行完还长
3.数据类型转换及优化
还有其他可行性方案吗,需要尽可能少改动pandas的代码