2 seasongirl seasongirl 于 2016.04.25 10:15 提问

Java中处理大数据的问题

在做一个信息提取的项目,需要提取几万份文件中的特定数据(每份文件大概是两百页左右的PDF),现在已经可以提取出其中一份文件中的特定数据了。
问:现在要怎样提取几万份文件中的特定数据?
用的是Java,据说要用多线程,不知道是不是,如果是的话,具体要怎么用?

2个回答

w172087242
w172087242   Ds   Rxr 2016.04.25 13:47
已采纳

开线程可能会造成内存溢出的问题,这样的任务应该交给多台服务器多个线程来处理,这样又快又安全。

w172087242
w172087242 在多台机器上同时运行java程序,然后有一个总线来控制机器的注册以及那个机器需要多哪些文件,然后每个机器开启多个线程,开线程的话最好是用线程池来进行管理。还有一种方式就是用hadoop,这个专门处理大文件系统
一年多之前 回复
seasongirl
seasongirl 能详细点说一下思路么?其实我是今天才刚刚看了一些有关线程的基础知识。
一年多之前 回复
CSDNXIAOD
CSDNXIAOD   2016.04.25 10:23

java 大数据处理
java大数据处理
java 大数据处理
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!