Java中处理大数据的问题

在做一个信息提取的项目,需要提取几万份文件中的特定数据(每份文件大概是两百页左右的PDF),现在已经可以提取出其中一份文件中的特定数据了。
问:现在要怎样提取几万份文件中的特定数据?
用的是Java,据说要用多线程,不知道是不是,如果是的话,具体要怎么用?

1个回答

开线程可能会造成内存溢出的问题,这样的任务应该交给多台服务器多个线程来处理,这样又快又安全。

w172087242
little_how 在多台机器上同时运行java程序,然后有一个总线来控制机器的注册以及那个机器需要多哪些文件,然后每个机器开启多个线程,开线程的话最好是用线程池来进行管理。还有一种方式就是用hadoop,这个专门处理大文件系统
4 年多之前 回复
seasongirl
seasongirl 能详细点说一下思路么?其实我是今天才刚刚看了一些有关线程的基础知识。
4 年多之前 回复
立即提问