求实现将文档内汉字(已分好词)提取并按照顺序排序、显示词频,做成一个词典的源代码 40C

求实现将文档内汉字(已分好词)提取并按照顺序排序、显示词频,做成一个词典的源代码
java、python、c++都可以

1个回答

这里有个c语言写的,可以参考下:https://github.com/He11oLiu/WordFrequency

qq_36102904
qq_36102904 支持!
一年多之前 回复
caozhy
贵阳老马马善福专门编写代码的老马就是我! 回复qq_41593718: 中文经过分词,就相当于英文。中文比英文多一个分词的步骤而已
一年多之前 回复
qq_41593718
qq_41593718 要求中文的呢
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
汉字词频排序
收录GB2312中的全部的汉字,并按照每个汉字的使用频率进行排序。
如何按照汉字的开头字母的顺序排序
几条数据,比如陈大明,李立,胜勇,Michanl,Jackrn请问怎么按照照开头字母,从A到Z排序rn
sql按照In的顺序排序
按指定顺序输出数据,可以使用order by charindex(','+convert(varchar,ID)+',',',3,1,2,5,4,')的方法来实现这个目的 1 2 3 4 select id,title from tbname where id in (3,1,2,5,4) order by chari...
按照指定顺序排序
sqlserver 指定某个字段的顺序排序SELECT * FROM Users u WHERE u.id IN (331,311,321) ORDER BY charindex(',' + CONVERT (VARCHAR, u.id) + ',',',331,311,321,') //当我们需要指定排序的时候,无论正序还是倒序都不能满足我们的要求,所以需要用到charindex函数,用法
汉字按照拼音排序
1.引入pinyin4j 包 com.belerweb pinyin4j 2. 继承Comparator  public class PinyinCompare implements Comparator{ private String ToPinYinString(AreaListVo contacts){           String str=c
如何实现将多个字符串按照拼音顺序进行排序?
多个字符串是用unicode编码的,我该怎么做?
统计文档里词的总数(分好词的)
统计文档里词的总数(分好词的)rnrn Dictionary.ValueCollection values=dictionary.Values;rnrn这样得到Values词频的集合{1,2,3,4}rn我想得到Values词频的总和 1+2+3+4 怎么写...
集合按照指定顺序排序
对一个集合按照指定id进行排序 package com.example.zhoujian.newfeaturedemo.bean; public class PersonBean { private int id; private String name; public PersonBean(int id, String name) { ...
Oracle之 按照特定顺序排序
有一个人员表,需要查询出来的人员顺序和给出的EXCEL顺序保持一致:  查出所有数据:       select *  from person 按照EXCEL人员顺序  QWERTY( 一个字母代表一个人名) 需要借助函数          INSTR(str, substr)是返回substr在str中的位置,若不存在,则返回0  按顺序查询出人员   select *  fr...
mysql 按照特定顺序排序
select * from tableName where where order by field(column,'str','str'),edit_time
PostgreSQL 按照自定义顺序排序
/* 按照指定顺序排序 */ select * from person order by case constellation when '白羊' then 1 when '金牛' then 2 when '双子' then 3 when '巨蟹' then 4 when '狮子' then 5 when '处女' then 6 when '天秤' then 7 whe...
按照字母顺序进行排序
按照字母顺序进行排序 免费下载
按照节点顺序来排序
[code=SQL]rn--> 测试数据: [tree]rnif object_id('[tree]') is not null drop table [tree]rncreate table [tree] (id int,parentid int,classname varchar(3),parentpath varchar(20))rninsert into [tree]rnselect 1,0,'a',',0,' union allrnselect 2,0,'b',',0,' union allrnselect 3,1,'ab',',0,1,' union allrnselect 4,1,'ac',',0,1,' union allrnselect 5,2,'ba',',0,2,' union allrnselect 6,3,'abc',',0,1,3,'rngornrn--结果想变成rnid parentid classname parentpathrn----------- ----------- --------- --------------------rn1 0 a ,0,rn3 1 ab ,0,1,rn6 3 abc ,0,1,3,rn4 1 ac ,0,1,rn2 0 b ,0,rn5 2 ba ,0,2,rn[/code]
MySql按照指定顺序排序
记录Order By,手动指定排序 order by field(value,str1,str2,str3,str4,,,,,,strn) 其中value后面的参数自定义,不限制参数个数
怎样按照字典顺序排序
大家好!rn  我在开发一个类似于“友情强档”之类的软件,它里面有一个按首字拼音字母排序的功能,后台数据库用SQL Server 2000,请问这用vb该怎么实现!rn  谢谢!
Java汉字按照拼音排序
@Test  public void test_sort_pinyin() {      Collator cmp = Collator.getInstance(java.util.Locale.CHINA);      String[] arr = { "张三", "李四", "王五", "赵六", "JAVA", "123", "$%$#", "哈哈A",              "1哈哈A
MySQL按照汉字的拼音排序
数据库字符集如果是GBK :sql + order by name asc;数据库字符集如果是UTF-8:sql +  order by convert(name using gbk) asc; 
java 汉字按照拼音排序
最近项目上使用到汉字排序的问题,网上搜索了一下后普遍使用下面的方法比较。     [java] view plaincopy @Test   public void test_sort_pinyin() {       Collator cmp = Collator.getInstance(java.util.Locale.CHINA);    ...
MYSQL排序按照自定义的顺序排序
在做项目的过程中会遇到不同情况的排序,如对某个字段根据该字段的不同值进行排序: 如需要对一张表的status字段按照1,0,2的顺序排序,这个时候就不能使用传统的asc进行排序了: select * from t where type = 2 order by status asc; 而是要按照该字段的值进行排序: select * from ttt where type = 2 OR...
298031条词库,已排序,含词频
298031条词库,已排序,含词频,可用作输入法开发数据,txt格式的
读取text文档英文并排序,统计词频
VC6.0的C程序#include "stdio.h" #include "ctype.h" #include "string.h" #include "stdlib.h" struct WORD{ /*定义结构体*/ char w[21]; int n; }; int main(void){ int i,j,k,l; struct WO
order by 按照指定顺序排序或自定义顺序排序
今天 突然 接到了一个需求改动 是这样的  假设 A (0,1,2,3,4)字段有几个值 则按照这个值进行不规则的排序(2,1,4,3,0) 这样的话就会没有规律去进行排序,值可以自己进行自定义排序我用到了这个方法     order by A  WHEN '2'  THEN  1  WHEN '1'THEN 2  WHEN '4' THEN 3  WHEN '3' THEN 4 WHEN '...
提取年份并排序
有个日期字段,想用一条SQL能列出所有的年份并排序,比如有5条数据:rn1. 2006-1-1rn2. 2006-4-2rn3. 2007-7-2rn4. 2007-12-1rn5. 2008-1-2rnrn想得到结果为:rnrn1. 2008rn2. 2007rn3. 2006
带词性词频的扩展词典
带词性词频的扩展词典 带词性词频的扩展词典 带词性词频的扩展词典 带词性词频的扩展词典
python 之计算词典和词频矩阵
词典构造:每个单词对应一个数字ID 。words列表里的单词排序,不知道以何原理。 词频矩阵:col 数为单词的个数,列数为文本的个数。 from collections import Counter from itertools import chain import numpy as np documents = ["Human machine interface for lab ab...
C#统计词频出现的次数并排序
C#的读写问题中数据流的操作中的一个必备的案例,也是一个必备的了解
datagridview按照顺序,显示问题
在数据库表中有1000个数据行,表中有个ID字段,其范围0-999.rn每隔一秒刷新一次,往datagridview中添加一个数据,并用一个timer定时器。rn当用datagridview显示数据时发现当满一页时,数据没有按照从小到大的顺序显示。rn即,当显示完29时,第30条数据出现在datagridview第一条数据的上面。rn然后,后面又正常显示?第31条出现在第29条后面。rn请问,如何解决这个问题?
如何按照汉字的首字母顺序来查询?
比如数据库中有个字段叫 姓名,如何按照 26个字母的顺序排序?
如何按照汉字的笔画顺序来查询?
比如数据库中有个字段叫 姓名,其中的字段有 张**,王***,田**rn我如何能按照rn王** 3划rn田** 5划rn张** 8划rn...
sql分组并提取每组的前一条,按照时间排序
select * from ( select row_number() over(partition by '分组' order by '日期') as rownum -- 排序并分组 , * -- 所需显示的字段 from 表 ) as T where T.rownum = 1 对每组的数...
python 中文词频提取
本文提供两种方法: 1.直接提取 2.通过上级词汇与下级词汇比较,得出正常词语。 比如“谢谢你”和“谢你”,“谢谢”,“谢谢”出现的评论比“谢你”高,所以前者是一个词语而后者不是 同样比如“乌托邦”是一个固定词汇,那么“乌托邦”出现的概率几乎等于“乌托”和“托邦”,这这两个都不是词语 如下是代码,写的有点乱#-*-coding:utf8-*- import re import strin
如何把一个词典的词按照汉字编码排序
RT,分词加词典,当要把词按照汉字编码排序,请大侠们给个思路。rn若能给示例代码,感激不尽,C++,JAVA实现都可以。。
文档中提取汉字信息
匹配双字节字符(包括汉字在内):[^x00-xff] html = '''西藏自治区拉萨市柳梧大桥常体国家级政府采购专业网站服务热线:400-810-1996PPP频道当前位置:首页;»;政采公告;»;地方公告;»;中标公告西藏自治区拉萨市柳梧大桥常规定期检查项目中标公告2018年05月07日23:33来源:公告信息:采购项目名称西藏自治区拉萨市柳梧大桥常规定期检查项目品目服务/专业技术服务/其他...
c 语言如何在文件中提取单词,并按照英文词典顺序排序输出到另外一个文件(100分)
例:文件中A中有 rnabc#aba?axy34 hpz_hh rnaaa+=ccc rn经过取词排序在文件B中排列如下: rnaaa rnaba rnabc rnaxy rnccc rnhpz_hh rn我自己写了把文件A中的内容取出存储到文件B中这一部分,但是取词排序不知道怎么写,各位高手大大帮帮忙补充下,非常感谢哈 rn我的代码如下: rnint _tmain(int argc, _TCHAR* argv[]) rn rnchar inputfilename[] = "H:\\wordwork1\\study\\input.txt"; rnchar outputfilename[] = "H:\\wordwork1\\study\\output.txt"; rnrnFILE *fp; rnFILE *fp1; rnchar ch,c[1024]; rnint i,j; rnrnif((fp=fopen(inputfilename,"r"))==NULL) rn rnprintf("input file cannot be opened\n"); rnexit(0); rn rnfor(i=0;(ch=fgetc(fp))!=EOF;i++) rn rnc[i] = ch; rnputchar(c[i]); rn rnfclose(fp); rnrnj=i; rnif((fp1=fopen(outputfilename,"w"))==NULL) rn rnprintf("output file cannot be opened\n"); rnexit(0); rn rnfor(i=0;i
sql server2000 如何按照记录录入顺序 排序显示 ?
表 有几个索引 无主键 无递增列 字段无日期时间字段 rnrnrn测试时录入几条 可以正常排序显示(先录入的再前面后录入再后面) rnrnrn可后来发现 后录入的跑前面去了 rnrn有没有 表的默认隐藏列 可以排序下
请问如何按照in()中的id顺序排序?
现在有一个SQL语句rnselect * from tblexam where examid in (267245,262153,262503,261727,268787,230830,231627,260328,260691,261152,261717,261720,262093,262510,266181,267842,267873,304439,287744,236368,307139,307489,307541,307813,307834,312144,324878,260587,261149,322126)rnrnexamid是一个Int型的主键rn现在如果按照这样的语句执行以后,取出来的结果并不是按照in()里面的examid顺序排列的。我想要一定按照in中的顺序排列,请问这个sql语句应该怎么写?rn在此先多谢帮忙的各位了。
MSHFlexGride.sort=? 是按照什么顺序排序的?
-
mysql中文排序(按照中文拼音顺序排序)
Mysql按照中文拼音排序
让查询结果按照指定顺序排序
让查询结果按照指定顺序排序 ---------------------------------------------------------------------- 表结构如下: mysql> select * from test; +----+-------+ | id | name | +----+-------+ | 1 | test1 | | 2 |...
将列表按照父子关系深度优先遍历顺序排序
问题 在项目中 我们经常需要将一个有父子关系的列表按照树的深度优先遍历的方式排序。所以写了一个通用的排序算法。 源码 github 地址: CollectionsOpt.java。更多分享参见 https://ndxt.github.io。  public interface ParentChild<T> { boolean parentAndChild(T...
相关热词 c# stream 复制 android c# c#监测窗口句柄 c# md5 引用 c# 判断tabtip 自己写个浏览器程序c# c# 字符串变成整数数组 c#语言编程写出一个方法 c# 转盘抽奖 c#选中treeview

相似问题

5
Mac电脑word文档保存后退出文档变为0字节能否恢复
3
swagger怎么生成dubbo接口的文档,求指教
1
求OFD版式文档样例,浏览器可以双击浏览的格式合成
2
怎么用python_docx提取docx的一级标题,二级标题?
1
word无法打开,提示文档受到保护
2
怎么用python将有格式的txt文档读入excel文档当中
1
如何将编辑完成的dataframe生成为xlsx文档并在文件名中加入系统当前日期时间
0
使用EasyPOI,导出时给Excel文档种某列添加下拉列表
4
Android Studio中Invalid escape sequence at line 1 column 37 path $[0].name的问题
2
SpringBoot+MybatisPlus可以实现有角色菜单关系数据,将关系数据一起删除吗
2
把文档中的每一行都提取出来并且每一行都生成一个新的文本文档,代码应该怎么写?
2
python处理txt文件,怎么把文本形式的数据处理成字典
1
mybatis 文档根元素 "additionalHeaders" 必须匹配 DOCTYPE 根 "null",求大佬解惑
3
POI修改word文档有bug?
0
MongoDB 内嵌文档聚合分组性能优化
7
java怎么实现读取数据库并生成excel表下载
1
【求助帖】Revit二次开发 族载入到项目文档里报错:该文档当前处于只读状态.LoadFamily可能无法执行。
1
用Python凯撒密码。。。。。。
2
Android开发中WebView上传文件时可以上传图片但是不能上传文档怎么解决?
0
html页面全屏问题 火狐浏览器报错 请求全屏已拒绝,至少一个文档包含的元素不是一个 iframe