ikanalyser分词及停用词问题。

package IkLucene;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class IKAnalyzerTest {

public static void main(String[] args) {

String keyWord = "自动化物流系统,规划,管理流程,效益";

//创建IKAnalyzer中文分词对象

IKAnalyzer analyzer = new IKAnalyzer();

// 使用智能分词

analyzer.setUseSmart(true);

// 打印分词结果

try {

printAnalysisResult(analyzer, keyWord);

} catch (Exception e) {

e.printStackTrace();

}

}

/** 
 * 打印出给定分词器的分词结果 
 *  
 * @param analyzer 
 *            分词器 
 * @param keyWord 
 *            关键词 
 * @throws Exception 
 */  
private static void printAnalysisResult(Analyzer analyzer, String keyWord)  
        throws Exception {  
    System.out.println("["+keyWord+"]分词效果如下");  
    TokenStream tokenStream = analyzer.tokenStream("content",  
            new StringReader(keyWord));  
    tokenStream.addAttribute(CharTermAttribute.class);  
    tokenStream.reset(); //新版中需要有这么个reset，不可遗漏！
    while (tokenStream.incrementToken()) {  
        CharTermAttribute charTermAttribute = tokenStream  
                .getAttribute(CharTermAttribute.class);  
        System.out.println(charTermAttribute.toString());  

    }  
}

}

上面代码中keyword不管怎么变，结果却都是一样的。求帮忙看看错哪了？

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2016-11-20 07:23
关注
http://www.lxway.com/950465564.htm

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

机器学习去除停用词问题 sklearn 机器学习
2022-10-25 05:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
jieba词频统计中去除停用词的问题 python
2023-03-07 16:32

回答 5 已采纳参考gpt和自己的思路，在代码中，你已经成功读取并生成了停用词列表stop_list，可以在统计词频时添加一个判断，如果单词出现在停用词列表中，则不加入词频统计。下面是修改后的代码： import
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 02:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
分词-停用词数据集，基本停用词
2020-10-14 09:00

在自然语言处理（NLP）领域，分词和停用词是两个至关重要的概念，它们在文本分析、信息检索、机器学习以及人工智能等应用中扮演着基础性角色。本数据集专注于提供一个基本的停用词列表，用于优化分词过程。 **分词*...
求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 08:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
python 数据预处理：对文件夹下的多个文本进行去停用词和分词 nlp python 数据分析
2023-04-19 11:59

回答 2 已采纳使用Python中的os和glob库来实现对文件夹下的多个文本进行去停用词和分词。
IK 分词，当英文与数字混合搜索时，遇到 Elasticsearch 分词问题。 elasticsearch
2021-09-06 04:29

回答 4 已采纳 PUT /test_analyzer { "settings": { "analysis": { "analyzer": { "test_analyzer":
中文分词常用停用词 文档
2018-09-29 02:12

根据提供的文档信息，我们可以深入探讨中文分词中的停用词概念及其应用。停用词在自然语言处理（NLP）领域扮演着重要角色，尤其是在文本分析、信息检索和机器学习等场景下。以下是对该主题的详细解析： ### 一、...
Python的jieba库输出全部分词哪里出了问题 python
2022-06-02 03:36

回答 1 已采纳代码没错，只是你输出的内容错了可以参考 jieba.cut与jieba.lcut的区别_blackieliu的博客-CSDN博客_jieba.cut
深度学习方面分词的问题 github python 深度学习
2022-01-08 04:09

回答 1 已采纳报错的原因是没找到"cache/vocab_small.txt"文件，这是因为你没有跑到项目的路径下去运行代码。切换到这个位置下运行代码，应该就不会报错了 F:\GTP\GPT-Chinese\GP
ES如何模糊搜索IK分词后的数字 elasticsearch
2022-11-28 03:20

回答 2 已采纳不是有个match_phrase_prefix吗，试试看这个咯
python使用jieba实现中文分词去停用词方法示例
2020-09-20 09:33

在Python中处理中文文本时，jieba库是一个非常重要的工具，尤其对于中文分词任务。...希望本文的介绍对你在使用jieba进行中文分词及停用词过滤时有所帮助。如有更多疑问或需要进一步探讨，欢迎进行讨论。
python文本分词，去停用词，包含基础停用词词典
2019-03-06 02:01

对于不同的应用场景，停用词列表可能需要有所不同，例如在搜索引擎优化中，某些常见词语可能就不是停用词，而在情感分析中，它们可能需要被过滤掉。基础的停用词词典通常包含了最常见的停用词，但在实际应用中，根据...
汉语停用词——自然能语言处理、分词停用词
2022-05-18 02:35

汉语停用词——自然能语言处理、分词停用词
分词及停用词文件需要自取
2021-12-09 07:17

首先，我们需要读取文本文件，然后使用分词工具进行分词，接着去除停用词，最后统计并输出指定关键字的词频，这个结果通常会保存为CSV格式，便于后续的数据分析和可视化。下面是一个简化的Python代码示例，演示了...
没有解决我的问题, 去提问

悬赏问题

¥15 没输出运行不了什么问题
¥20 输入import torch显示Intel MKL FATAL ERROR，系统驱动1%，: Cannot load mkl_intel_thread.dll.
¥15 点云密度大则包围盒小
¥15 nginx使用nfs进行服务器的数据共享
¥15 C#i编程中so-ir-192编码的字符集转码UTF8问题
¥15 51嵌入式入门按键小项目
¥30 海外项目，如何降低Google Map接口费用？
¥15 fluentmeshing
¥15 手机/平板的浏览器里如何实现类似荧光笔的效果
¥15 盘古气象大模型调用（python）

ikanalyser分词及停用词问题。

2条回答 默认 最新

悬赏问题

2条回答默认最新