2 qq 28945021 qq_28945021 于 2016.09.13 17:54 提问

Ansj+yarn自定义词包读取不到 5C

最近有一个需求是使用ansj分词后根据起词性进行分类,当然,词性是自定义词典的词性。然而当将本地测试无误的项目打成jar包提交到yarn上运行时可能是因为某些从机读取了词典,某些没有读取。就会导致只能得到一半的正确结果。困了几天了。求拯救

3个回答

dabocaiqq
dabocaiqq   2016.10.08 01:49
yangchenguang09
yangchenguang09   2017.01.10 13:27

请问你的问题解决了吗?我用ansj在Spark上分词也遇到了这个问题,我分别尝试了词库文件导入和textFile读hdfs的方式,UserDefineLibrary.contains("xxx")也都返回true,Idea里和以local方式在spark集群中提交任务都没有问题,然而一旦以standalone或yarn模式提交任务就出现部分自定义词表失效的问题,不能全部分词正确,并且每次的分词结果都有细微差异,无论采用client还是cluster方式,尝试了各种方法都无法解决,我使用的是ansj5.0.4和Spark1.6.2。

shuijingziaishuijiao
shuijingziaishuijiao   2017.10.25 14:45

请问,你的问题解决了吗?我也遇到了这个问题。。。。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Ansj自定义词典
1.首先添加ansj的maven依赖 org.ansj ansj_seg 5.1.2 2.使用ansj测试分词 public class WordSegmentTest { @Test public void wordTest(){ String str = "这是一段测试文字"; Result result=NlpAnalysi
【实训日记9】Ansj5.1.3版本自定义词典、歧义词典的使用
之前的资料说的都不太明白,这次也是自己找了很久之后,做一个总结,以便以后再用到。 我们这里使用的都是资源配置。 零、Maven <dependency> <groupId>commons-logging</groupId> <artifactId>commons-logging</artifactId&gt...
java ansj5.0.1自定义词典
为了让分词系统更好的识别公司名字,进行了自定义词典实验,具体代码如下: public static void main(String[] args) {         // TODO Auto-generated method stub                                   String str = "他来自与百悟科技的北京语言科技公司毕业的大学生,进行一
ansj分词方式详细解析
ToAnalysis 精准分词 精准分词是Ansj分词的店长推荐款 它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.如果你初次尝试Ansj如果你想开箱即用.那么就用这个分词方式是不会错的. DicAnalysis 用户自定义词典优先策略的分词 用户自定义词典优先策略的分词,如果你的用户自定义词典足够好,或者你的需求对用户自定义词典的要求比较高,那么强烈建
Ansj中文分词使用教程
摘要: ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现. ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 Ansj目前实现了.中文分词.词性识别. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 下载jar: 访问 http://maven.nlpcn.
solr6使用ansj做中文分词
solr中有自带的中文分词,不过它将中文按一个一个字进行分词,这就导致搜索出的结果让人不满 这里以text_general字段为例,managed-schema中的配置是这样写的:                                                             生成索引和查询使用的都
ElasticSearch之分词器进阶-修复ansj分词器bug
执行更新中
spark scala 用ansj分词
本文编辑于2017.4.15,使用ansj最新的版本5.1.1分词 先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github:https://github.com/NLPchina/ansj_seg ansj下载链接:https://oss.sonatype.org/content/repositories/releases/org/
SPARK+ANSJ 中文分词基本操作
ANSJ 5.0.2 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 下载地址 :http://maven.nlpc
配置Solr中文分词器IK以及ansj,支持动态修改用户词库。
经常看到不少人问solr的IK分词如何配置,如何实现中文动态词库添加这类问题,中文分词看来还是solr使用的一个容易卡住的地方。其实solr自带中文分词smartcn,它是个ictclas智能分词的java版。如果想体验一下smartcn的效果是比较简单的,配上对应的tokenizerFactory就可以了,但smartcn不支持动态增加词库。 我们都知道一般词库都是单例,想动态修改词库要么保证