2 seasongirl seasongirl 于 2016.04.25 10:15 提问

Java中处理大数据的问题

在做一个信息提取的项目,需要提取几万份文件中的特定数据(每份文件大概是两百页左右的PDF),现在已经可以提取出其中一份文件中的特定数据了。
问:现在要怎样提取几万份文件中的特定数据?
用的是Java,据说要用多线程,不知道是不是,如果是的话,具体要怎么用?

2个回答

w172087242
w172087242   Ds   Rxr 2016.04.25 13:47
已采纳

开线程可能会造成内存溢出的问题,这样的任务应该交给多台服务器多个线程来处理,这样又快又安全。

w172087242
w172087242 在多台机器上同时运行java程序,然后有一个总线来控制机器的注册以及那个机器需要多哪些文件,然后每个机器开启多个线程,开线程的话最好是用线程池来进行管理。还有一种方式就是用hadoop,这个专门处理大文件系统
大约 2 年之前 回复
seasongirl
seasongirl 能详细点说一下思路么?其实我是今天才刚刚看了一些有关线程的基础知识。
大约 2 年之前 回复
CSDNXIAOD
CSDNXIAOD   2016.04.25 10:23

java 大数据处理
java大数据处理
java 大数据处理
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Java 大型系统高并发大数据的处理方式
页面静态化 (页面层面的缓存) 缓存 (memcached、redis等,数据缓存、避免多次请求) 集群负载均衡(单机处理能力不足) 分库分表(大量数据的处理、原则分、分、分) 读写分离 队列、MQ、数据库增加加锁(防止并发) 存储(IO最耗性能) 小型机(提交硬件性能,呵呵) ..... 等待再补充 数据库层面: 当数据增加到100万以上,那么,MySQL的效能急剧下降
关于Java大数据的一些处理(蓝桥杯大数据解题)
关于Java大数据的一些处理(蓝桥杯大数据解题)
java 大数据方向面试题
第一,谈谈final, finally, finalize的区别。 final—修饰符(关键字)如果一个类被声明为final,意味着它不能再派生出新的子类,不能作为父类被继承。因此一个类不能既被声明为 abstract的,又被声明为final的。将变量或方法声明为final,可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值,而在以后的引用中只能读取,不可修改。被声明为f
大数据表格处理
http://ecomfe.github.io/echarts/doc/slide/whyEcharts.html#/4
java 大数据方面面试题_2
1.String 和StringBuffer的区别 JAVA平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据这个String类提供了数值不可改变字符串而这个StringBuffer类提供的字符串进行修改当你知道字符数据要改变的时候你就可以使用StringBuffer典型地,你可以使用StringBuffers来动态构造字符数据
java 对大数据的处理
最近做了一个项目,数据量每次处理在两百万左右,这里记录一下最近开发时处理大量数据的思路,主要思路是将大数据化小,多次处理,不足之处还请指出。 文件读取:首先是一个文件上传,数据入库,10-200万条不等,这里主要考虑到一次性读取,JVM分配出来的栈内存不一定会够(个人对内存这一块还是处于一知半解的状态,所以比较谨慎,若诸位大神有好的认知,希望评论留下地址分享一下),是依行读取数据,设定一个批量值
大数据分页解决方案
基于oracle的大数据分页
高并发、高可用、性能优化、大数据、java大纲
高并发、高可用、性能优化、大数据、java大纲
线程池,处理高并发问题,处理大数据量的方法
线程池个人认为,线程池的作用就是限制系统中执行线程的数量,避免服务器超负荷;减少创建和销毁线程的次数,从而减少了一些开销。设计一个线程池单例,在内部创建指定数目的线程,并用一个线程空闲队列表示可分配线程。注:还可以使用两个静态成员变量的方法限定最大线程数量。处理高并发问题1、CDN层:动静分离2、云+端3、服务层:        1)分布式        2)集群        3)异步解耦   ...
大数据量下高并发同步的讲解(高并发的瓶颈-需要处理的内容)
对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。    为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步    1、同步和异步的区别和联系          所谓同步,可以理解为在执行完一个函数或