手里有一个一直维护的 Java 计算库,能够完成业务计算。由于 Python 的生态圈优势(数据 I/O、绘图等工具箱),目前主要的数据分析和可视化代码是在 Python 中完成的。Python 调用 Java 的 Jar 库,必须通过 Jpype 或者 JCC 的形式调用,这两个都必须在使用前启动 java 虚拟机,然后 java 函数在这个虚拟机上执行。
现在的问题是,随着计算场景的复杂程度提高,Python 调用 Jar 计算的速度已经远远够不上需求,目前算2个小时的场景数据需要一天的时间。
解决问题的几个思路:
一个是在 python 中实现对多进程调用 Java,完成数据的并行计算和数据的并行 I/O;
一种是使用 C++重新写 java 的库,但是 python 调用 C 是否能实现上述多线程的功能?
还有一个思路是在 java 中完成多线程的计算,但是需要解决 java 并行写数据的问题(数据库?还是 HDF5 文件?)