如何对一个txt文档就行庖丁分词

就是实现对一个txt文档就行分词，用庖丁中文分词器。给出代码。最好给出解释

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
weixin_42317583 2009-07-24 17:36
关注
知道paoding就应该知道Lucene,可以用Lucene的分词器Analyzer,代码如下，测试加入lucene包和paoding配置即可
Analyzer analyzer = new PaodingAnalyzer();
FileInputStream in = null;
in = new FileInputStream(new File("d://1.txt"));
InputStreamReader inReader = new InputStreamReader(in);
BufferedReader br = new BufferedReader(inReader);
TokenStream ts = analyzer.tokenStream(content, br);
Token t = ts.next();
while (t != null) {
contentAnalyzer += t.termText() + " ";
System.out.println(t.termText());
t = ts.next();
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

如何对一个txt文档就行庖丁分词
2009-07-24 09:51

回答 3 已采纳知道paoding就应该知道Lucene,可以用Lucene的分词器Analyzer,代码如下，测试加入lucene包和paoding配置即可 Analyzer analyzer = new Pao
请问下，vue组件中怎么使用带有svg的图表，，比如echarts 庖丁解牛是通过什么方式引入使用的前端有问必答
2022-04-10 21:09

回答 2 已采纳 $.get是jquery ajax的get方法，用来下载svg数据，下载成功后执行回调function，调用echarts.registerMap注册可用的地图echarts.registerMap文
echarts做地图能不能做到如下所示的这样？ echarts
2018-10-30 10:44

回答 2 已采纳可以参考这两篇[自定义echarts地图](https://blog.csdn.net/Bs__Q/article/details/80074771 "") [echarts地图设置散点](http
庖丁分词工具
2015-04-12 00:31

庖丁中文分词需要一套词典，这些词典需要统一存储在某个目录下，这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录，它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...
怎么才能当上需求分析师？
2009-06-11 12:33

回答 3 已采纳 UML是一个图形化一个系统的一种工具语言，从需求分析，架构到设计都可以用uml，你先从入门开始学习，慢慢你就理解深刻了，为什么要用uml，它就是把一个非常复杂的系统或者需求把它庖丁解牛似的分解
sorlr + tomcat+ 庖丁解牛中文分词配置文档
2019-05-24 02:01

NULL 博文链接：https://michael-tuan.iteye.com/blog/370788
java 庖丁分词_几种常见的中文分词包的分析与比较
2021-03-09 17:02

东南亚电商王里的博客 1：中文分词简介2：Lucence的中文分词3：庖丁分词简介4：IK中文分词简介一：中文分词简介1：分词算法分类-----基于字符串匹配的中文分词方法eg：句子：我来自沈阳航空航天大学词典：沈阳航空航天大学沈阳航空...
java 庖丁解牛_“庖丁解牛” 分词器实现
2021-03-06 22:02

weixin_39813009的博客 import java.io.IOException;import java.io.StringReader;import ...import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.Token;import or...
利用庖丁解牛工具进行中文分词
2016-11-01 22:35

jxfang7788的博客关于如何使用庖丁解牛分词工具可参考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 该工具可实现自定义词典，对于有些特殊的词，比如明星名字林心如霍建华等，可构建词典以.dic为...
使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
2016-08-23 17:40

搜索与推荐Wiki的博客本篇博客也是在做豆瓣电影数据的分析过程中，需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时，感觉做中文分词也没那么麻烦，但是到了Spark，却碰到了诸多困难，但幸好最终都解决了这些问题...
基于hadoop的分布式分词程序（庖丁分词）
2016-12-01 16:12

柱子89的博客一、使用的分词包——庖丁分词器介绍 1.1、简介：庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。...
java 庖丁解牛中文分词_庖丁解牛"中文分词包
2021-02-26 15:33

weixin_39703926的博客 http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极高效率 ...采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。能够对未知的词汇进行合理解析欢...
关于庖丁分词
2017-06-22 21:43

weixin_34054931的博客 1 庖丁只要是同一个配置文件就会是同一个庖丁对象，所以其实你可以放心的new。 2 庖丁的配置文件改变他是会去检查的，可以通过设置paoding.dic.detector.interval这个来设置检查的时间间隔。 3 庖丁使用的不是原始...
没有解决我的问题, 去提问

悬赏问题

¥15 matlab数据降噪处理，提高数据的可信度，确保峰值信号的不损失？
¥15 怎么看我在bios每次修改的日志
¥15 python+mysql图书管理系统
¥15 Questasim Error: (vcom-13)
¥15 船舶旋回实验matlab
¥30 SQL 数组，游标，递归覆盖原值
¥15 为什么我的数据接收的那么慢呀有没有完整的 hal 库并代码呀有的话能不能发我一份并且我用 printf 函数显示处理之后的数据，用 debug 就不能运行了呢
¥20 gitlab 中文路径，无法下载
¥15 用动态规划算法均分纸牌
¥30 udp socket，bind 0.0.0.0 ，如何自动选取用户访问的服务器IP来回复数据

如何对一个txt文档就行庖丁分词

3条回答 默认 最新

悬赏问题

3条回答默认最新