python如何统计某些指定词语的词频

已经完成了分词,统计所有词的词频也已经实现,但是如果想要统计某些指定词语的词频呢?
比如我现在有个txt文件,里面就包含了这些指定的词汇,每个词一行,如:
aaa
bbb
ccc
ddd
我不想要统计分词结果中其他词汇的词频,得到的词频统计结果以如下形式存储为txt:
bbb 5
aaa 3
ccc 2
ddd 0
请问要如何实现呢?
刚开始学python,请大神赐教,谢谢。

3个回答

分词好后,先建立一个要统计指定词的字典,然后遍历统计

txtArr = Txt.split() 
worddict ={'aaa': 0, 'bbb': 0,'ccc':0}
for i in txtArr:
    if i in worddict:
        worddict[i] = worddict[i]+1
print(worddict)

使用dict字典。

words = ["aaa","bbb"]
worddict =dict()
for i in words:
    if i in worddict:
        worddict[i] = worddict[i]+1
    else:
        worddict[i] = 0
print(worddict)
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python中文词频统计怎么做

在用jieba分词之后,出现大概下面的句子: x/ 漂亮a/ ,x/ 古典ns/ 园林n/ ,x/ 超赞v/ , 想将每一个x/.../,作为一个整体,同时对分出来的词进行词频统计。求指教,急...

如何将中文词频统计和词云图结合起来

把中文词频统计的代码导入到词云图的代码 运行不了 ![图片说明](https://img-ask.csdn.net/upload/202004/01/1585733472_642283.png) ![图片说明](https://img-ask.csdn.net/upload/202004/01/1585733995_73994.png) ![图片说明](https://img-ask.csdn.net/upload/202004/01/1585733494_367068.png) ![图片说明](https://img-ask.csdn.net/upload/202004/01/1585734028_714902.png) 我用词频统计选出来了出现次数前十的词汇(中间把一些杂词删掉了)。当制作词云图的时候,我尝试过把所有文本都先分词,然后在wordcloud里用stopwords屏蔽掉一些杂词,然后设置max_words=10,但是我发现这些词和出现次数前十的词并不一致,甚至是完全不一样。有大佬可以教教我吗???

python文本分析统计词频输出结果后重新使用WPS查找功能发现词出现的次数与结果不一致?

按照代码输出了统计词频数的文本和excel表格,但是我重新打开文本用word里的查找筛选功能后发现词出现的次数与代码输出的结果不一致,如“照明”一词代码输出668次,而word查找是1300+次,请问代码哪里有问题?![![![![图片说明](https://img-ask.csdn.net/upload/201710/07/1507363779_270898.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363772_983670.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363766_395072.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363760_270083.png)

Python绘制词频统计图,怎么输出到GUI,而不是输出到控制台?

# -*- coding: utf-8 -*- from tkinter import * import tkinter import hashlib import time import codecs import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 LOG_LINE_NUM = 0 class MY_GUI(): def __init__(self,init_window_name): self.init_window_name = init_window_name #设置窗口 def set_init_window(self): self.init_window_name.title("维吉尼亚密码工具") #窗口名 self.init_window_name.geometry('320x160+10+10') #290 160为窗口大小,+10 +10 定义窗口弹出时的默认展示位置 self.init_window_name.geometry('1000x680+10+10') self.init_window_name["bg"] = "white" #窗口背景色,其他背景色见:blog.csdn.net/chl0000/article/details/7657887 self.init_window_name.attributes("-alpha",1.0) #虚化,值越小虚化程度越高 self.init_data_label = Label(self.init_window_name, text="待处理数据") self.init_data_label.grid(row=0, column=0) self.result_data_label = Label(self.init_window_name, text="输出结果") self.result_data_label.grid(row=0, column=15) self.init_key_label = Label(self.init_window_name, text="密钥") self.init_key_label.grid(row=0, column=10) self.log_label = Label(self.init_window_name, text="日志") self.log_label.grid(row=12, column=0) self.init_data_Text = Text(self.init_window_name, width=50, height=35) # 原始数据录入框 self.init_data_Text.grid(row=1, column=0, rowspan=10, columnspan=10) self.result_data_Text = Text(self.init_window_name, width=35, height=49) # 处理结果展示 self.result_data_Text.grid(row=1, column=12, rowspan=15, columnspan=10) self.key_Text = Text(self.init_window_name, width=5, height=1) # 密钥框 self.key_Text.grid(row=1, column=6, rowspan=1,columnspan=10) self.log_data_Text = Text(self.init_window_name, width=66, height=9) # 日志框 self.log_data_Text.grid(row=13, column=0, columnspan=10) #按钮 self.str_transtoencrypt_button = Button(self.init_window_name, text="加密", bg="lightblue", width=10,command=self.str_transtoencrypt) # 调用内部方法 加()为直接调用 self.str_transtoencrypt_button.grid(row=3, column=11) self.str_transtodecrypt_button = Button(self.init_window_name, text="解密", bg="lightblue", width=10,command=self.str_transtodecrypt) # 调用内部方法 加()为直接调用 self.str_transtodecrypt_button.grid(row=5, column=11) self.str_count_button = Button(self.init_window_name, text="词频统计", bg="lightblue", width=10,command=self.str_count) # 调用内部方法 加()为直接调用 self.str_count_button.grid(row=7, column=11) #功能算法的实现 #加密算法 def str_transtoencrypt(self): letter_list = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'; src = self.init_data_Text.get(1.0,END).strip().replace("\n","") #获得输入的字符 key = self.key_Text.get(1.0, END).strip().replace("\n", "") #获得输入的密钥 a=[] for ch in key: a.append(ord(ch.upper())-65) #ord()函数返回ASCii值 upper()将小写转大写Python 列表 append() 方法用于在列表末尾追加新的对象。 get_list = a ciphertext = ''; i = 0 for ch in src: # 遍历明文 if i % len(get_list) == 0: i = 0 if ch.isupper(): # isupper函数检测字符串中是否都是大写字母 ciphertext += letter_list[(ord(ch) - 65 + get_list[i]) % 26] i += 1 else: ciphertext += letter_list[(ord(ch) - 97 + get_list[i]) % 26].lower() i += 1 self.result_data_Text.delete(1.0, END) self.result_data_Text.insert(1.0, ciphertext) #解密算法 def str_transtodecrypt(self): letter_list = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'; src = self.init_data_Text.get(1.0, END).strip().replace("\n", "") # 获得输入的字符 key = self.key_Text.get(1.0, END).strip().replace("\n", "") # 获得输入的密钥 a=[] for ch in key: a.append(ord(ch.upper())-65) #ord()函数返回ASCii值 upper()将小写转大写Python 列表 append() 方法用于在列表末尾追加新的对象。 get_list = a ciphertext = ''; i = 0 plaintext=''; i = 0 for ch in src: #遍历密文 if i%len(get_list)==0: i=0 #判断是否是大写 if ch.isupper(): plaintext+=letter_list[(ord(ch)-65-get_list[i]) % 26] i+=1 else: plaintext+=letter_list[(ord(ch)-97-get_list[i]) % 26].lower() i+=1 self.result_data_Text.delete(1.0, END) self.result_data_Text.insert(1.0, plaintext) #词频统计及统计图 def str_count(self): top = Toplevel() top.title('词频统计结果') top.geometry('1000x1000') fr =self.init_data_Text.get(1.0,END).strip().replace("\n","") word = [] counter = {} for line in fr: line = line.strip() if len(line) == 0: continue for w in line: if not w in word: word.append(w) if not w in counter: counter[w] = 0 else: counter[w] += 1 counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True) print(counter_list[:50]) label = list(map(lambda x: x[0], counter_list[:50])) value = list(map(lambda y: y[1], counter_list[:50])) plt.bar(range(len(value)), value, tick_label=label) plt.show() def gui_start(): init_window = Tk() #实例化出一个父窗口 RMC_PORTAL = MY_GUI(init_window) # 设置根窗口默认属性 RMC_PORTAL.set_init_window() init_window.mainloop() #父窗口进入事件循环,可以理解为保持窗口运行,否则界面不展示 gui_start() ``` ``` ![如图,点击词频统计按钮后,统计图出现在IDE中,同时生成一个空白窗口图片说明](https://img-ask.csdn.net/upload/201810/12/1539334357_812708.jpg)

词频统计小程序(世界各国语言通用)

如题,是否有可以统计日语、西班牙语、葡萄牙语、阿拉伯语、法语等世界各国语言的词频统计小程序/应用推荐;词频统计时首先是分词,然后是计次;因此理想中的词频统计工具可以实现: 1、自由配置/定义词频统计所用语种词库;并且不同语种的词库可以存放为一个个TXT文档 2、词频统计输入文档也能以TXT形式提交 3、词汇间类似于汉语和日语可能需要分词,亦或直接匹配所用词库文档中的词汇进行计次 4、结果以TXT文档导出,左边为词汇,右边为频次,中间以空格隔开 初次在C站提问,如有表述问题,望不吝指出。

c语言实现英文文本词频统计

c语言结课课程设计,希望有大佬可以指点一下小白 单词词频统计 设计内容: 写程序处理英语文本文件,统计文件中所出现的各单词在文本中出现的频次。 设计功能: 1、 将英文段落以文本文件,并在屏幕上显示。 2、 处理读入的文本文件,提取段落中的英文单词,并且统计各单词出现的次数。 3、 将各单词及其出现频次打印出来,并且将频次为前十的单词的频率用柱状图表示出来。 如果VC6.0环境不能画柱状图的话,就只需要把所有单词的出现频次打出来,再把前十的单词和频率输出就好。 求指电 跪求大佬帮助

NLpIr得到的词频统计怎么处理

词频排序结果:  /82#,/wd/80#的/ude1/70#。/wj/47#疫苗/n/38#、/wn/35#接种/vn/32#反应/vn/27#是/vshi/22#后/f/ 我想用来把词语的个数清晰明了的 列出来 不要这些符号  应该怎么处理?? 我是个新手 还请大神不吝赐教!谢谢

hive统计词频,找出top30的词

老师的一个作业需要统计一个文件的词频 请加微信13234477182 200元红包 很简单的一个任务。。。

【新人求助】jieba库进行词频统计不输出结果,请问是什么问题呢?

![图片说明](https://img-ask.csdn.net/upload/201911/13/1573650574_800481.png)![图片说明](https://img-ask.csdn.net/upload/201911/13/1573650585_690226.png) 我的代码是有问题吗?问题出在哪里呢?

在该限制下,如何使用最短代码的java实现该词频统计

#!/usr/bin/env python import re, sys, collections stops = open(’../stop_words.txt’).read().split(’,’) words = re.findall(’[a-z]{2,}’, open(sys.argv[1]).read().lower()) counts = collections.Counter(w for w in words if w not in stops) for (w, c) in counts.most_common(25): print w, ’-’, c 上述示例代码为python版本的词频统计。功能如下: 导入stopwords和源文件,之后进行统计并输出。 问题:使用尽可能少的java代码来实现相同的功能,尽可能的调用函数

hdfs无法进行词频统计

# hadoop集群,hdfs无法进行词频统计 ## 执行语句: hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount \ > /wordcount/input /wordcount/output ``` ``` ## ResourceManager已经启动 [root@hadoop01 mapreduce]# jps 2977 NodeManager 2597 DataNode 3557 Jps 2873 ResourceManager 2494 NameNode ``` ``` ## 防火墙已关闭 [root@hadoop01 mapreduce]# service iptables stop [root@hadoop01 mapreduce]# ``` ``` 错误提示: INFO client.RMProxy: Connecting to ResourceManager at hadoop01/192.168.131.131:8032 org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop01:9000/wordcount/output already exists at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146) at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:266) at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:139) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290) at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1746) at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287) at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1308) at org.apache.hadoop.examples.WordCount.main(WordCount.java:87) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:71) at org.apache.hadoop.util.ProgramDriver.run(ProgramDriver.java:144) at org.apache.hadoop.examples.ExampleDriver.main(ExampleDriver.java:74) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136) ``` ```

使用NLPIR分词软件怎么统计语料的总词数(非词频)?

我用NLPIR软件对文本进行了分词后(除标点外共20个词),在语言统计一栏里进行了全量词频统计,但是输出的Excel表中没有语料的总词数,和分词结果不统一,有没有自动统计总词数的方法? ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551268784_898604.png)![图片说明](https://img-ask.csdn.net/upload/201902/27/1551268797_35508.png)

请问该怎么批量统计文件夹里每个txt文档的中文字数以及英文单词总数,然后再导出呀?

我正在批量提取txt文档的一些关键词词频,之前也统计了文档总字数(代码如下所示),但是后来发现有的文档有中文也有英文,现在想分开统计两种字数,文档中文总字数、文档英文单词总数(是单词,不是字母),请问这应该怎么改代码呀 # 统计txt的文字数 ``` def file_fenxi(file): contents = file.read() num_words = len(contents.rstrip()) return num_words ``` # 返回完整的文件名 计算文档字数 path_sum = [] for i in file_Name: path = path + '/' + i path_sum.append(path) path = "E:\总txt\" # 计算文档字数 for i in range(len(path_sum)): with open(path_sum[i], encoding='utf-8') as file_obj: nianbao_count = file_fenxi(file_obj) context_Front_4[i].append(str(nianbao_count))

求问,关于词频统计的一个问题

如何做到将单词的不同词形如has,had,转换为原型进行计数?

ictclas java 对指定目录下的.txt文件进行分词预处理,同时去除停用词跟统计词频

之前我也在网上当过一些资料自己也写了一些代码但是不知道是哪里出错了一直没有理想的效果,请大神帮我看看,代码如下:package com.hygenomics.tqa.util; public class WordSeg { private static String testDataFolder = System.getProperty("user.dir")+"\\testData"; private static String nlpirLib = System.getProperty("user.dir")+"\\ictclas\\WIN64\\NLPIR"; private static String nlpirDataFolder = System.getProperty("user.dir")+"\\ictclas"; private static String stopWordTableFile = System.getProperty("user.dir")+"\\dic\\StopWordTable.txt"; private static String keyWordTableFile = System.getProperty("user.dir")+"\\dic\\国务院公文主题词表.txt"; private static String segSrcFolder = System.getProperty("user.dir")+"\\segSrc\\ "; private static String segDestFolder = System.getProperty("user.dir")+"\\segDest\\"; interface CLibrary extends Library { WordSeg.CLibrary Instance = (WordSeg.CLibrary) Native.loadLibrary("D:\program\CWordSeg[maven]\file\win64\NLPIR", WordSeg.CLibrary.class); public int NLPIR_Init(String sDataPath,int encoding,String sLicenceCode); //获取字符串分词 public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged); // 对文本进行分词:读入文本,输出文本,是否标注词性(0为不标注,1为标注) public boolean NLPIR_FileProcess(String txt_input, String txt_output, int i); // 添加用户词汇 public int NLPIR_AddUserWord(String sWord); // 删除用户词汇 public int NLPIR_DelUsrWord(String sWord); // 保存用户词汇到用户词典 public int NLPIR_SaveTheUsrDic(); // 导入用户自定义词典:自定义词典路径,bOverwrite=true表示替代当前的自定义词典,false表示添加到当前自定义词典后 public int NLPIR_ImportUserDict(String sFilename, boolean bOverwrite); //获取关键字 public String NLPIR_GetKeyWords(String sLine,int nMaxKeyLimit,boolean bWeightOut); // 词频统计功能,sText为字符串文本 public String NLPIR_WordFreqStat(String sText); public String NLPIR_GetLastErrorMsg(); public void NLPIR_Exit(); } private static String[] stopWords=new String[769];//停用词个数 private static void loadStop() throws IOException { //ArrayList stopwords=new ArrayList();//存放词语 BufferedReader fr = new BufferedReader(new InputStreamReader(new FileInputStream("E:\\自己工作用\\中文算法\\哈工大停用词表\\StopWordTable.txt"),"utf-8")); String word=null; int count=0; word=fr.readLine(); while(word!=null){ //stopwords.add(word); stopWords[count]=word; count++; word=fr.readLine(); }//省去每次加载停用词 } private static String removeAll(String str){//去除停用等,同时去除词性标注 String RAll=""; String[] allWords = str.split(" "); for (String allWord : allWords) { int pos = allWord.lastIndexOf("/"); String temp = ""; if (pos > 0) temp = allWord.substring(0, pos).trim(); if (!temp.equals(" ") && !temp.equals(" ") && !temp.equals("")) { RAll = RAll + temp + " "; } } return RAll; } private static String removeW(String str){//去除标点符号 String removeW=""; String[] allWords = str.split(" "); for (String allWord : allWords) { int pos = allWord.lastIndexOf("/"); if (pos > 0) { String temp2 = allWord.substring(pos + 1, pos + 2);//词性标注 if ( !temp2.equals("w") && !temp2.equals("") ) { removeW = removeW + allWord + " ";//w标点 或者为空 } } } return removeW; } private static String removeStop(String str){//去除停用等,但是保留词性标注 String afterStop=""; boolean flag=true; String[] allWords = str.split(" "); for (String allWord : allWords) { int pos = allWord.lastIndexOf("/"); int n; if (pos > 0) { String temp1 = allWord.substring(0, pos);//中文不包括词性标注 String temp2 = allWord.substring(pos + 1, pos + 2);//词性标注 flag = true; if (temp2.equals(" ") || temp2.equals("t") || temp1.equals("") || temp1.equals(" ") || temp2.equals("s") || temp2.equals("z") || temp2.equals("d") || temp2.equals("p") || temp2.equals("c") || temp2.equals("u") || temp2.equals("e") || temp2.equals("y") || temp2.equals("o") || temp2.equals("h") || temp2.equals("k") || temp2.equals("m") || temp2.equals("x") || temp2.equals("q")) { //t时间词,s处所词,z状态词,d副词,p介词,c连词,u助词,e叹词,y语气词,o拟声词,h前缀,k后缀,m数词,q量词,x英语等字符串 flag = false; } else for (n = 0; n < stopWords.length; n++) { if (temp1.equals(stopWords[n])) {//去除停用词 flag = false; break; } } if (flag) afterStop = afterStop + allWord + " "; } } return afterStop; } public static void testICTCLAS_FileProcess(String inDirectory,String OutDirectory) { try { //分词所需库的路径 String argu = "D:\\program\\CWordSeg[maven]\\file"; int charset_type = 1; int init_flag = CWordSeg.CLibrary.Instance.NLPIR_Init(nlpirDataFolder, charset_type, "0"); String nativeBytes; //初始化 if (0 == init_flag) { nativeBytes = CWordSeg.CLibrary.Instance.NLPIR_GetLastErrorMsg(); System.err.println("初始化失败!原因:"+nativeBytes); } int nCount = CWordSeg.CLibrary.Instance.NLPIR_ImportUserDict("E:\\自己工作用\\国务院公文主题词表txt\\国务院公文主题词表.txt",true); System.out.println(nCount+"个自定义词…………"); File dirIn= new File(inDirectory); File dirOut = new File(OutDirectory); if(dirOut.exists()){ dirOut.mkdirs(); } File fileIn[] = dirIn.listFiles(); for (int i = 0; i < fileIn.length; i++) { if (fileIn[i].isDirectory()){ testICTCLAS_FileProcess(fileIn[i].getPath(),OutDirectory); } String Inputfilename=fileIn[i].getPath(); //分词处理后输出文件名 String Outputfilename =OutDirectory+fileIn[i].getName(); //文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名) if((CLibrary.Instance.NLPIR_FileProcess(Inputfilename,Outputfilename,1))==false){ System.out.print(fileIn[i].getPath()+"分词失败"); }else { System.out.println(fileIn[i].getPath() + "分词成功,这是第" + i + "个文档"); } } //保存用户词典 CWordSeg.CLibrary.Instance.NLPIR_SaveTheUsrDic(); CWordSeg.CLibrary.Instance.NLPIR_Exit(); // 退出 } catch (Exception e) { e.printStackTrace(); } } private static HashMap<String, Integer> termUnitFreq(String str){ String out=""; HashMap<String, Integer> wordMap= new HashMap<String, Integer>(); String[] words=str.split(" "); int count=words.length; System.out.println(count); String[] strStatistics=new String[count];//词 int[] strTimes=new int[count];//词频 for(int k=0;k<count;k++){//初始化 strTimes[k]=0; strStatistics[k]=""; } for (String word : words) {// if ( !word.equals("") && !word.equals(" ") && !word.equals(" ") ) { for (int j = 0; j < count; j++) {//存储着最终的统计词 if (strStatistics[j].equals("")) {//如果最终统计词表为空则添加进去 strStatistics[j] = word; //System.out.println(words[i]); strTimes[j]++; break; } else { if (word.equals(strStatistics[j])) {//终统计词表中存在这个表里就词频数加1 strTimes[j]++; break; } } } } } for(int n=0;n<count;n++){ if(!strStatistics[n].equals("")&&strTimes[n]!=0) wordMap.put(strStatistics[n],strTimes[n]); else break; } return wordMap; } public static void computeTermFrequency(String InDirectory,String OutDirectory) throws IOException{ loadStop(); BufferedWriter bw = null; File dirIn= new File(InDirectory); File fileIn[] = dirIn.listFiles(); for (File aFileIn : fileIn) { bw = new BufferedWriter(new FileWriter(new File(OutDirectory + aFileIn.getName())));//文件名称 String str = ""; BufferedReader reader = new BufferedReader(new FileReader(InDirectory + aFileIn.getName()));//读取页数大于1的文件内容 String line; line = reader.readLine(); while (line != null) { line = removeW(line); line = removeStop(line); String temp = removeAll(line); str = str + " " + temp; line = reader.readLine(); } reader.close();// }

python词频分析关键词频数与word检索的结果不一致?

python结果与wordCrtl+F搜索结果不一致。代码如下:![图片说明](https://img-ask.csdn.net/upload/202004/16/1587017421_546305.png) python结果: ![图片说明](https://img-ask.csdn.net/upload/202004/16/1587017466_951321.jpg) word搜索结果: ![图片说明](https://img-ask.csdn.net/upload/202004/16/1587017493_784813.jpg) 显然“发展”这一词语出现的频次是不同的,请问是哪里的问题?如何改进?谢谢!!!

小白求助T T 关于python构建文本词条矩阵

![问题如图](https://img-ask.csdn.net/upload/201611/11/1478865662_642432.jpg) 所用代码(在网上搜的 做了修改) # -*- coding: cp936 -*- textlist=open('out.txt','rb') points=[] for line in textlist: a=line.split()#通过指定分隔符对字符串进行切片,默认为空格 points.append(a)#把a添加到points[]列表的最后 textlist.close() #调用调试文本并储存到points这个list里面,list的每个元素是一个子list,即一个地点,每个子list里的元素是一个地点分出来的词 wordlist=open('自己的词库.txt','rb') words=[] for ele in wordlist: b=ele.split()#通过指定分隔符对字符串进行切片,默认为空格 words.append(b[0]) wordlist.close() #调用调试词库并储存到wordlist这个list里面,list的每个元素是一个整体文本分词降噪统计词频后的词条 import numpy as np matrix=np.zeros((len(points),len(words))) #创建n行(n个)m列(m个词条)的初始矩阵matrix0 for n in range(len(points)):#len()返回字符串的长度 for m in range(len(words)): for l in range(len(points[n])): if points[n][l] == words[m]: matrix[n,m]+=1 #通过循环生成matrix print (matrix) ``` ```

一个在python句子里面的for循环

新手学python,我遇到一个python在句子里面,我不能理解这个for循环是什么意思。 如果改成常见的那种for循环应该怎么写。 我看不懂的代码是这一句 ``` Q[s, a] = np.sum([T[s, a, sp] * (R[s, a, sp] + discount_rate * np.max(Q_prev[sp])) for sp in range(3)]) ``` 这是完整的代码,运行的环境是jupyter,python版本是3.6.5 ``` import numpy as np nan = np.nan T = np.array([[[0.7,0.3,0.0],[1.0,0.0,0.0],[0.8,0.2,0.0]], [[0.0,1.0,0.0],[nan,nan,nan],[0.0,0.0,1.0]], [[nan,nan,nan],[0.8,0.1,0.1],[nan,nan,nan]] ]) R = np.array([[[10.,0.0,0.0],[0.0,0.0,0.0],[0.0,0.0,0.0]], [[10.,0.0,0.0],[nan,nan,nan],[0.0,0.0,-50.0]], [[nan,nan,nan],[40.0,0.0,0.0],[nan,nan,nan]] ]) possible_actions = [[0,1,2],[0,2],[1]] Q = np.full((3, 3), -np.inf) # -inf 对应着不可能的动作 for state, actions in enumerate(possible_actions): Q[state, actions] = 0.0 # 对所有可能的动作初始化为0.0 learning_rate = 0.01 discount_rate = 0.95 n_iterations = 100 for iteration in range(n_iterations): Q_prev = Q.copy() for s in range(3): for a in possible_actions[s]: Q[s, a] = np.sum([T[s, a, sp] * (R[s, a, sp] + discount_rate * np.max(Q_prev[sp])) for sp in range(3)]) ```

python初学者列表删除操作的疑问

![图片说明](https://img-ask.csdn.net/upload/201708/02/1501667495_913732.png) 如图为什么会这样,他没说为什么没有全部移除符合条件的元素? 我字典操作统计词频的时候删除不想统计的连词、代词、介词的时候也出现这样不能完全删除的情况? 谢谢,求教,问题出现在哪里呢?

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

将一个接口响应时间从2s优化到 200ms以内的一个案例

一、背景 在开发联调阶段发现一个接口的响应时间特别长,经常超时,囧… 本文讲讲是如何定位到性能瓶颈以及修改的思路,将该接口从 2 s 左右优化到 200ms 以内 。 二、步骤 2.1 定位 定位性能瓶颈有两个思路,一个是通过工具去监控,一个是通过经验去猜想。 2.1.1 工具监控 就工具而言,推荐使用 arthas ,用到的是 trace 命令 具体安装步骤很简单,大家自行研究。 我的使用步骤是...

学历低,无法胜任工作,大佬告诉你应该怎么做

微信上收到一位读者小涛的留言,大致的意思是自己只有高中学历,经过培训后找到了一份工作,但很难胜任,考虑要不要辞职找一份他能力可以胜任的实习工作。下面是他留言的一部分内容: 二哥,我是 2016 年高中毕业的,考上了大学但没去成,主要是因为当时家里经济条件不太允许。 打工了三年后想学一门技术,就去培训了。培训的学校比较垃圾,现在非常后悔没去正规一点的机构培训。 去年 11 月份来北京找到了一份工...

JVM内存结构和Java内存模型别再傻傻分不清了

JVM内存结构和Java内存模型都是面试的热点问题,名字看感觉都差不多,网上有些博客也都把这两个概念混着用,实际上他们之间差别还是挺大的。 通俗点说,JVM内存结构是与JVM的内部存储结构相关,而Java内存模型是与多线程编程相关,本文针对这两个总是被混用的概念展开讲解。 JVM内存结构 JVM构成 说到JVM内存结构,就不会只是说内存结构的5个分区,而是会延展到整个JVM相关的问题,所以先了解下

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Google 与微软的浏览器之争

浏览器再现“神仙打架”。整理 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)从 IE 到 Chrome,再从 Chrome 到 Edge,微软与...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

立即提问
相关内容推荐