2 qq 33691951 qq_33691951 于 2016.04.24 18:39 提问

中文分词,原代码有么?字符串分词
c#

中文分词,原代码有么?字符串分词,分词系统可以用别人已有的么?。。。。。求大神指教

1个回答

caozhy
caozhy   Ds   Rxr 2016.04.24 23:46

有的,比如盘古分词,自己google下。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
列举:中文分词算法你知道几种?
列举:中文分词算法你知道几种? 摘要:看似普通的一句话,甚至几个词,在机器眼里都要经过好几道“程序”。这个过程主要靠中文分词算法,这个算法分为三大类:机械分词算法、基于n元语法的分词算法、基于隐马尔可夫模型的分词算法,本文将为大家重点介绍 来源:数据猿  作者:江永青  原文链接:http://www.datayuan.cn/article/4671.htm 前言 中文分词
我也说说中文分词(上:基于字符串匹配)
1. 序 词是句子组成的基本单元,不像英语句子已经分好词了,中文处理的第一步就是中文分词。 分词中面临的三大基本问题 分词规范分词歧义未登录词的识别 中文分词算法大概分为两大类 第一类:基于字符串匹配     即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”, “长词优先” 等策略。 优点:速度快,都是O(n)
中文自动分词歧义类型
      汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在,因为在中文信息处理中,凡是涉及句法、语义等的研究(如机器翻译、自然语言处理等)都要以词为单位。汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其中文信息处理中的重要地位,自20世纪70年代末
分享一个PHP中文分词,一定要看(13亿人看完都感动了^_^!!!)
分享一个PHP中文分词,一定要看(13亿人看完都感动了^_^!!!) 分类: PHP 中文分词 http://blog.csdn.net/pzp_118/article/details/8949192 [php] view plaincopyprint?    /**   * 中文分词处理方法   *+-----
oracle Text 全文检索功能对中文分词的支持情况
下面例子在XE中测试通过。准备工作:CREATE   TABLE issues (    ID         NUMBER,    summary       VARCHAR(120),    description   CLOB,    author     VARCHAR(80),    ot_version VARCHAR(10));INSERT INTO issues     VALUE
中文分词和二元分词综合对比
中文分词和二元分词综合对比                   为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。    采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒;
中文分词常用方法简述
中文分词就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。三类分词算法:1. 基于字符串匹配:将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。优点,速度快,都是O(n)时间复杂度,实现简单。缺点,对歧义和未登录词处理不好。此类型中常用的几种分词方法有:1. 正向最大匹配法:假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为
中文分词一席谈之难点分析
标签:休闲 中文分词 难点 机器学习 由字构词 职场 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/380450  中文分词一席谈之分词难点分析 langiner@gmail.com http://langiner.blog.51cto.c
【中文分词】亲手开发一款中文分词器——源代码
这里提供我开发的中文分词器源代码。代码分为三个部分: (一)状态矩阵元素对象GNode。    动态规划中,状态矩阵的元素需要记录当前最大概率和前一个最优匹配状态,这个矩阵是一个二维数组,每一个元素就是一个GNode对象。 (二)统计学习使用的嵌套哈希表THash。 用于统计学习时记录结果的HashMap,这个哈希表有三层嵌套,对于收入数据有一些必要操作,为了简单起见,我将这个哈希表进行了封装
[转]用PHP简易实现中文分词
 用PHP简易实现中文分词 文章作者:Hightman文章来自:http://php.twomice.net/show_hdr.php?xname=BORRG11&dname=P7SRG11&xpos=7hehe, 用PHP去做中文分词并不是一个太明智的举动, :p下面是我根据网上找的一个字典档, 简易实现的一个分词程序. (注: 字典档是gdbm格式, key是词 val