2 qq 34322002 qq_34322002 于 2016.03.20 10:24 提问

java中文文本处理代码

Java对文章进行处理,能输出作者,关键词之类的,求代码和解析。

2个回答

u011042985
u011042985   2016.03.20 10:46

我谈谈我的看法,论文中的作者和其它一些前后没有什么特定符号的字符,估计正则表达式很难获取
剩下的就是http://poi.apache.org/download.html,获取字体大小,来进行判断。

u011042985
u011042985 回复qq_34322002: 你可以把你要提取的内容给我,我帮你写一个,不过我会根据复杂度向你收钱,你觉得好再给我钱
2 年多之前 回复
qq_34322002
qq_34322002 请问文本关键字的代码可以在哪获取?
2 年多之前 回复
wojiushiwo945you
wojiushiwo945you   Ds   Rxr 2016.03.20 10:56
    那你的待处理文本的内容是否有一定的规律呢,时本身是否是HTML文件格式,单纯对内容解析的话,可以直接用字符串截取处理,但是如果是HTML文件可以用htmlparser工具类进行解析 。
qq_34322002
qq_34322002 不好意思怎么晚才回复你。我想要的是:对一篇文章,题目用加粗,作者用斜体,正文按平常的格式,然后能输出题目,作者,文章的关键字。请问用Java实现的代码有吗?
2 年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 我倒是对网络爬虫、数据提取比较熟悉,关键是我得知道你的具体需求啊。
2 年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 那问你啊,你的需求是什么样的呢?是通过网络爬虫得到源文件然后解析么?你的需求也没有明啊。
2 年多之前 回复
qq_34322002
qq_34322002 获取文本关键词的代码在哪里找?
2 年多之前 回复
wojiushiwo945you
wojiushiwo945you 回复qq_34322002: 什么代码啊?
2 年多之前 回复
qq_34322002
qq_34322002 请问代码如何获取?
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
中文文本处理传统方法
分词机械分词 依据词典匹配分词 逆向匹配效果一般优于正向匹配 最大匹配先匹配长词,递减至短词,长度为2时仍未匹配,单词切割即可正向最大匹配 正向最小匹配 逆向最大匹配 逆向最小匹配 一体化分词 考虑统计词频,寻找在给定字串上最大概率的分割序列(以词频统计做概率似然) 歧义字段发现:双向扫描分词结果不一致判为歧义字段词性标注:用词性标注分别切割计算分词路径概率值,选取大概率分
Python文本处理常用代码总结(一)
1、使用固定编码打开、读取文件 import os import sys import codecs file_in=codecs.open(filename,"r",encoding="GBK") out="*****" file_out=codecs.open(out,"w",encoding="utf-8") filelines=file_in.readlines() for line
[JAVA] 文本分段处理,中文
上一篇发布了一个小说,原文是PDF。 为了
文本挖掘--数据文本处理-java
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示:    我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。  不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类。 一、文本信
中文文本预处理;k-means聚类
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
中文文本预处理--主题模型
去掉低频词、分词、繁简转化、替换奇异词等是中文文本数据处理中的重要步骤。
R+中文︱中文文本处理杂货柜——chinese.misc
Package: chinese.misc Version: 0.1.3 Date: 2017-03-12 Authors:Wu Jiang (吴江),微信号:theblackriver 受R语言中文社区的文章《diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)》启发,来看看这个刚刚发布的中文处理新包,感谢作者允许转载。因为作者在github上写的有点乱,
文本特征处理
# -*- coding: utf-8 -*- """ Created on Wed Jun 6 21:27:21 2018 @author: lixingxing """ # -*- coding: utf-8 -*- """ Created on Wed Jun 6 10:28:08 2018 @author: lixingxing """ #import uniout
SnowNLP:中文文本处理Python库
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。 from s
RNN(LSTM)处理文本资料总结
A noob’s guide to implementing RNN-LSTM using Tensorflow http://monik.in/a-noobs-guide-to-implementing-rnn-lstm-using-tensorflow/