凌一木 2014-09-23 03:31 采纳率: 0%
浏览 1958

Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长

Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长

[code="java"]
最近要改别人写的一个解析html入库的程序,原本没有抽取正文的代码,就自己找了一个放了进去,是根据Jsoup解析写的,运行之后发现Jsoup解析大量html内存溢出,资源没有回收,内存一直增长。设1G的内存也就解析了几十万的页面就崩了。查了半天之后也没找到定位到,具体是哪个参数的内存一直增加也没有查出来,不知道怎么监视。现在是整个程序内存越跑越大,有几百万的页面,跑到几十万程序就崩了,内存1-2G,下面我会把程序和数据库上传一下。库表就3个(mysql).求懂的前辈给看看是哪里写的不对,有什么优化的方案。
[/code]

[code="java"]
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

这里是解析正文调用的,ArticleTextExtractor.extractContent里调用了Jsoup.parse(String)来解析。
String content = "";
Converter c = new Converter();
ArticleTextExtractor extractors = new ArticleTextExtractor();
JResult res = extractors.extractContent(c.streamToString( new FileInputStream(file)));
content = res.getText();
[/code]

[code="java"]
这边不能挂附件貌似,http://www.iteye.com/problems/103393 我在这边的提问上有
[/code]

  • 写回答

0条回答

    报告相同问题?

    悬赏问题

    • ¥15 安装svn网络有问题怎么办
    • ¥15 Python爬取指定微博话题下的内容,保存为txt
    • ¥15 vue2登录调用后端接口如何实现
    • ¥65 永磁型步进电机PID算法
    • ¥15 sqlite 附加(attach database)加密数据库时,返回26是什么原因呢?
    • ¥88 找成都本地经验丰富懂小程序开发的技术大咖
    • ¥15 如何处理复杂数据表格的除法运算
    • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)
    • ¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗?
    • ¥15 latex怎么处理论文引理引用参考文献