2 qq 34322002 qq_34322002 于 2016.03.20 10:24 提问

java中文文本处理代码

Java对文章进行处理,能输出作者,关键词之类的,求代码和解析。

2个回答

u011042985
u011042985   2016.03.20 10:46

我谈谈我的看法,论文中的作者和其它一些前后没有什么特定符号的字符,估计正则表达式很难获取
剩下的就是http://poi.apache.org/download.html,获取字体大小,来进行判断。

u011042985
u011042985 回复qq_34322002: 你可以把你要提取的内容给我,我帮你写一个,不过我会根据复杂度向你收钱,你觉得好再给我钱
一年多之前 回复
qq_34322002
qq_34322002 请问文本关键字的代码可以在哪获取?
一年多之前 回复
wojiushiwo945you
wojiushiwo945you   Ds   Rxr 2016.03.20 10:56
    那你的待处理文本的内容是否有一定的规律呢,时本身是否是HTML文件格式,单纯对内容解析的话,可以直接用字符串截取处理,但是如果是HTML文件可以用htmlparser工具类进行解析 。
qq_34322002
qq_34322002 不好意思怎么晚才回复你。我想要的是:对一篇文章,题目用加粗,作者用斜体,正文按平常的格式,然后能输出题目,作者,文章的关键字。请问用Java实现的代码有吗?
一年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 我倒是对网络爬虫、数据提取比较熟悉,关键是我得知道你的具体需求啊。
一年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 那问你啊,你的需求是什么样的呢?是通过网络爬虫得到源文件然后解析么?你的需求也没有明啊。
一年多之前 回复
qq_34322002
qq_34322002 获取文本关键词的代码在哪里找?
一年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 什么代码啊?
一年多之前 回复
qq_34322002
qq_34322002 请问代码如何获取?
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!