2 qq 28945021 qq_28945021 于 2016.09.13 17:54 提问

Ansj+yarn自定义词包读取不到 5C

最近有一个需求是使用ansj分词后根据起词性进行分类,当然,词性是自定义词典的词性。然而当将本地测试无误的项目打成jar包提交到yarn上运行时可能是因为某些从机读取了词典,某些没有读取。就会导致只能得到一半的正确结果。困了几天了。求拯救

3个回答

dabocaiqq
dabocaiqq   2016.10.08 01:49
yangchenguang09
yangchenguang09   2017.01.10 13:27

请问你的问题解决了吗?我用ansj在Spark上分词也遇到了这个问题,我分别尝试了词库文件导入和textFile读hdfs的方式,UserDefineLibrary.contains("xxx")也都返回true,Idea里和以local方式在spark集群中提交任务都没有问题,然而一旦以standalone或yarn模式提交任务就出现部分自定义词表失效的问题,不能全部分词正确,并且每次的分词结果都有细微差异,无论采用client还是cluster方式,尝试了各种方法都无法解决,我使用的是ansj5.0.4和Spark1.6.2。

shuijingziaishuijiao
shuijingziaishuijiao   2017.10.25 14:45

请问,你的问题解决了吗?我也遇到了这个问题。。。。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!