spark ansj分词报错数组越界

    val lines = sc.textFile("file:///D:/data/solr.txt")
    val hashingTF = new mllib.feature.HashingTF()

    val sentences = lines.collect().map{ sents =>
        val data = sents.split(",")
        val lable = "1"
        val sentence=sents.replaceAll("\t","")
                println(sentence)
        val temp = ToAnalysis.parse(sentence) //报错的地方
        val stopwords: java.util.List[String] = sc.textFile("hdfs:/svm/stopword.dic").collect().toSeq
         FilterModifWord.insertStopWords(stopwords)
        //(3)根据词性去停用词，w为标点符号
        FilterModifWord.insertStopNatures("w", null)
        val filter = FilterModifWord.modifResult(temp)
        val sent = for (i <- Range(0, filter.size())) yield filter.get(i).getName
        val message = sent.toArray
        message.map{word=>
          termMap.put(hashingTF.indexOf(word),word)
        }
        RawDataRecord(lable, message)
      }

16/12/17 17:30:45 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 63 ms on localhost (1/1)
16/12/17 17:30:45 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/12/17 17:30:45 INFO DAGScheduler: ResultStage 0 (collect at seg_local.scala:33) finished in 0.102 s
16/12/17 17:30:45 INFO DAGScheduler: Job 0 finished: collect at seg_local.scala:33, took 0.146047 s
 目前的分词器大部分都是单机服务器进行分词，或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。
16/12/17 17:30:45 INFO BlockManagerInfo: Removed broadcast_1_piece0 on 172.16.110.10:49409 in memory (size: 1850.0 B, free: 1992.9 MB)
16/12/17 17:30:46 INFO DICLOG: init user userLibrary ok path is : D:\Intellij\tsf_lda\library\default.dic
16/12/17 17:30:46 INFO DICLOG: init ambiguityLibrary ok!
16/12/17 17:30:46 INFO DICLOG: init core library ok use time :304
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 3
    at org.ansj.splitWord.Analysis.analysisStr(Analysis.java:115)
    at org.ansj.splitWord.Analysis.parseStr(Analysis.java:222)
    at org.ansj.splitWord.analysis.ToAnalysis.parse(ToAnalysis.java:103)
    at tsf_lda.seg_local$$anonfun$1.apply(seg_local.scala:38)
    at tsf_lda.seg_local$$anonfun$1.apply(seg_local.scala:33)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:186)
    at tsf_lda.seg_local$.main(seg_local.scala:33)
    at tsf_lda.seg_local.main(seg_local.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:483)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-12-17 11:02
关注
http://blog.csdn.net/sbq63683210/article/details/52102824

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

导入ansj时发生错误。中文分词
2016-11-26 04:31

回答 1 已采纳 http://blog.csdn.net/u012662688/article/details/39884189
静态数组为什么不能再方法内给定...探讨..是jdk的bug还是另有原因
2011-11-04 11:38

回答 2 已采纳建议了解下static的内部机制静态数据成员要在程序一开始运行时就必须存在。因为函数在程序运行中被调用，所以静态数据成员不能在任何函数内分配空间和初始化。
lucene多条件搜索时or与and问题 lucene
2013-06-08 08:23

回答 3 已采纳 should戴表两个字段中必须有一个..must是必须都存在...你看看大小写啥的..有可能建索引的时候全都小写了
ansj分词ansj_seg-5.1.5.jar
2022-01-05 14:08

《深入理解ANSJ分词与NLP实践》 ...在Spark和Scala的支持下，对于大数据环境下的分词工作，ANSJ更是表现出色。通过理解并熟练掌握这些技术，开发者能够在自然语言处理领域中构建出强大而高效的应用系统。
Ansj分词工具包
2018-02-08 13:17

用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时，程序中自带的jar包路径可能不正确，须将两个jar包删除，然后...
spark+ansj中文分词
2018-12-18 17:28

vasonyang的博客我是在win10中创建的maven项目，使用的是ansj _seg 5.1.6版本 https://github.com/NLPchina/ansj_seg <dependency> <groupId>org.ansj</groupId> <...
spark ansj中文分词
2019-10-24 12:52

「已注销」的博客基于java的中文分词工具ansj，提供了多种模式，而ansj的一个优势是可以能够添加用户自定义辞典 import org.ansj.splitWord.analysis._ import org.ansj.recognition.impl.StopRecognition import org.ansj....
最新的ansj分词jar包
2022-04-28 14:55

标题中的"最新的ansj分词jar包"指的是该压缩文件包含的是最新版本的`ansj`分词库的Java Archive (JAR) 文件。JAR文件是Java平台特有的归档格式，它封装了编译后的类文件和其他资源，使得开发人员能够方便地在项目中...
TestFenci.zip_ansj_分词
2022-09-21 20:31

"TestFenci.zip_ansj_分词"是一个Java分词测试程序，它利用了开源的分词工具Ansj进行测试。下面我们将深入探讨Ansj分词库及其在Java环境中的应用。 Ansj，全称“AnyThink NLP”，是由李新宇开发的一个开源中文分词...
ansj分词jar包
2018-12-04 20:52

solr配置ansj，managed-schema.xml中配置 <fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.ansj.lucene.util.AnsjTokenizerFactory" isQuery="false"/...
利用ansj分词和word2vec算法的基于spark的相似词推荐+源代码+文档说明
2024-04-11 11:22

- 不懂运行，下载完可以私聊问，可远程教学该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ <项目介绍> 1、该资源内项目代码都经过测试运行成功，...
ansj_seg:ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
2021-05-11 12:37

Ansj中文分词使用帮助开发文档：，摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。目前实现了中文分词、中文姓名识别、...
ansj分词器手册
2017-10-11 15:54

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
ansj中文分词工具
2015-08-20 19:53

5. **大数据处理**：对于海量文本数据，ansj可以与Hadoop、Spark等大数据框架结合，实现分布式分词，提高处理能力。 **四、使用示例** 在Java工程中使用ansj通常包括以下步骤： 1. 引入ansj的jar包依赖。 2. 创建`...
ansj分词_思维导图
2017-11-23 10:27

研究ansj代码之后，所做的思维导图。如需转载，请注明出处。
word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
2019-08-05 01:27

本话题将深入探讨四种常用的Java分词工具：word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer，以及它们在实际应用中的效果评估。首先，ansj分词器是由李弄潮开发的一款开源分词工具，它具有强大的词典支持和...
ansj分词、关键词匹配
2018-07-31 23:57

"ansj分词、关键词匹配"是这个主题的核心，它涉及到自然语言处理（NLP）的技术，特别是中文分词。分词是将连续的汉字序列切分成具有语义的词汇单位，它是中文信息处理的基础。Ansj，全名“ANSJ Library”，是由李航...
Scala中使用ansj分词库编写spark中文版WordCount
2021-11-21 00:52

九是否随机的称呼的博客配置环境的链接：spark在Windows10当中部署搭建Scala的使用环境Maven 编写使用的IDE是IntelliJ IDEA Community Edition 安装配置IntelliJ IDEA Community Edition 进入官方网站Download IntelliJ IDEA：The Java...
Ansj分词
2021-05-21 10:29

_花开富贵的博客 Ansj分词1.参考文档2.介绍3.demo4.自定义用户词典 1.参考文档使用手册 github git文档地址（最新）项目的文档地址（有点旧） 2.介绍是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版...
没有解决我的问题, 去提问

悬赏问题

¥15 有两个非常“自以为是”烦人的问题急期待大家解决！
¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧，别用大模型回答，大模型的答案没啥用
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error

spark ansj分词 报错数组越界

1条回答 默认 最新

悬赏问题

spark ansj分词报错数组越界

1条回答默认最新