2 xiantanglingfeng xiantanglingfeng 于 2016.04.14 14:53 提问

自然语言处理中中文字匹配 1C

从一句话中拆分成单个字,然后在从几个等级不同的字频表中匹配它是属于哪个等级的字频表(在未知的情况下默认是从最低等级的字频表开始匹配).
求其实现过程原理!用Java实现。

1个回答

caozhy
caozhy   Ds   Rxr 2016.04.14 23:26

首先你说的这个拆分,就是中文分词,你可以找一个分词库实现。然后你可以找词频表,google下有很多,如果你只是做学术的话。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
NLP(自然语言处理——1)---常用的字符串和正则表达式
NLP研究:(常用的一些命令) 字符串操作: (1)去掉空格及字符 s='hello, world' print(s.strip()) #结果hello, world! print(s.lstrip('hello,')) #结果 world print(s.rstrip('!')) #结果hello, world (2)连接字符串 sstr1='syrcat' sstr2='append' sst
深度学习在自然语言处理中的应用(一)
资料整理篇 Overview: 深度学习浪潮中的自然语言处理技术 框架: Caffe Tensorflow 官方版教程中文版 Theano Torch NLP相关: 深度学习将会变革NLP中的中文分词 Attention Model gensim tutorials DL书籍: 在线电子书Neural Networks and Deep Learning 公
递归实现前向匹配分词
# -*- coding: utf-8 -*- ''' 功能:递归实现前向匹配分词 说明:zhuanma这个包借鉴自jieba分词源代码用于 将任意格式编码的字符串转换为unicode编码,统一 字典和待分词语句的编码后,便于句子切分和分词. Author: Date : 2016-04-16 ''' import re from zhuanma import strdecode
通过偏旁信息改进中文字向量
基本思想在中文中,我们都知道汉字是由若干部分组成的,称为偏旁。而且偏旁也往往能够提供丰富的语义信息。比如,单人旁组成的字往往意指人,如“他”、“你”等;三点水为部首的字往往与水有关,如“海”、“江”等。因此,一个非常自然的想法就是将偏旁信息融入到词向量的生成过程中。Yanran Li等人发表的论文 《Component-Enhanced Chinese Character Embeddings》就是
中文自然语言处理工具集:分词,相似度匹配
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 分词工具 结巴分词 https://github.com/fxsjy/jieba pullword http://www.pullword.com/ FudanNLP https://github.com/FudanNLP/fnlp ...
自然语言处理与文本检索
今天开始把翟成祥教授的全文检索课程做一下笔记。文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。nlp的主要内容 1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注  2 句法分析(syntactic analysis):句法树、依存关系分析  3 语义分析(semantic analysis):   Dog(d1).
自然语言处理的中文文本相似度
前言    人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那么人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计学和数学等。    不同语言的自然语言处理也存在差别,对于中文来说,很多时候都无法直接套用英语自然语言处理中相对成熟的理论。有很多基础工作也是需要我们自己去做,而这包括了中文相似度。相似度
ML:自然语言处理NLP面试题
复杂特征集、合一语法以及词汇主义方法都是在原先理性主义框架(产生式或逻辑推理)框架下做出的重大贡献。尤其词汇主义方法的发展越来越得到语料库和统计学方法的支持,这也是经验主义和理性主义方法的相互融合。他们将成为自然语言处理技术的主流。
自然语言处理之LSA
什么是LSA LSA(Latent Semantic Analysis), 潜在语义分析。试图利用文档中隐藏的潜在的概念来进行文档分析与检索,能够达到比直接的关键词匹配获得更好的效果。 关键词匹配进行文档检索有何问题? 现在我们考虑检索问题,我们要从一些文档(可以是一句话、一个段落或一篇文章)中检索出我们想要的文档,可以想到的最简单的方法就是关键词匹配,即哪篇文档包含我们检索使用
自然语言处理之中文分词器详解
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。 1基于词典分词算法 基于