python怎么构建词频表和生成词频矩阵

在学习文本特征提取，看了篇论文，里面处理的方法是先构建词频表，取词频大于10构建关键词表，再生成向量矩阵：

但是现在我得到嵌套列表统计得到的词频后不知道接下来要怎么弄，数据大概是这个样子

主要是想得到向量矩阵接着学习，请问应该怎么处理呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ash062 2022-03-28 23:21
关注
按个人理解
1、先筛选出嵌套列表中词频大于10的词
2、制成关键词-序号字典
3、写个简单的one-hot编码函数

import numpy as np # lst = [[('toy', 18), ('woody', 11), ('buzz', 11), ('andys', 9), ('andy', 6), ...]] lst_ = [i[0] for j in lst for i in j if i[1] > 10] # 词频大于10的词，这里默认嵌套只有两层 dic = dict(zip(lst_, range(len(lst_)))) # 关键字-序号字典 def convert(s: str): return np.eye(len(dic))[dic[s]] # 后续可依次传入关键词，对返回结果调用np.r_[result.reshape(1, -1)]合并可得向量矩阵
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python实现词频统计问题 python
2022-10-21 22:01

回答 4 已采纳 import re data = 'In our world , one creature without any rivals is a lifeless creature. If a man l
python小问题，词频统计，统计次数。 python 开发语言
2021-11-10 17:13

回答 3 已采纳 from collections import Counter with open(r'python23成绩10-25-2021.csv', encoding='utf-8') as f:
Python词频统计 python
2022-09-02 11:37

回答 5 已采纳 import re # 请根据处理要求下面区域完成代码的编写。 def get_artical(artical_path): with open(artical_path) as fr:
使用CountVectorizer将文本中的词语转换为词频矩阵
2024-01-05 22:43

使用CountVectorizer将文本中的词语转换为词频矩阵
python统计单词词频 python 有问必答
2021-05-16 10:44

回答 4 已采纳 def getText(): txt = open("C:/Users/Lenovo/Desktop/hamlet.txt", "r").read() txt = txt.lowe
python如何统计csv/Excel文件里面的某一列数据的词频？ python
2021-12-17 21:35

回答 3 已采纳 https://pandas.pydata.org/docs/reference/api/pandas.Series.str.count.html?highlight=count#pandas.Ser
python词频统计探讨题 python
2022-05-29 10:46

回答 2 已采纳因为你现在是把‘aeiou’当成一个完整的字符串去检查，当然什么也找不到，所以字典是空的，最后当然会报错了。只要改后面的部分就可以了： counts={} for word in words:
基于Python词频共现矩阵的计算方法
2021-07-19 10:03

Artra_Soong的博客 # 整合一下，输入是df列，输出直接是矩阵 names = locals() all_col0 = [] # 用来后续求所有字段的集合 for row in vol_li: all_col0 += row for each in row: #对每行的元素进行处理，存在该字段字典的话，再...
Python用于检测英文文本词频的一些问题。 python
2022-05-04 21:53

回答 2 已采纳没有考虑你输出的格式，代码如下： wordmap = dict() wordmap['a'] = 4 wordmap['b'] = 3 wordmap['c'] = 6 wordmap['f'] =
python用jieba库进行哈姆雷特词频统计 python
2022-06-23 10:48

回答 2 已采纳找不到文件，你现在应该使用的是相对路径的写法，保证txt文件和运行的脚本文件在同一目录下。文件名也用复制的方式，避免出错。有帮助请采纳，还有不懂的可以继续追问~
嵌套列表，列表和字符串如何按行进行词频统计？ nlp python 自然语言处理
2022-03-22 01:57

回答 1 已采纳 words = [['a', 'b', 'c', 'a'],['a', 'b', 'c', 'b'],['a', 'b', 'c', 'c']] def statistics(words):
基于python生成词共现矩阵详细教程
2023-02-24 21:55

计算机毕设论文的博客基于python生成词共现矩阵详细教
【python】多封邮件词频统计 python 有问必答
2021-05-02 16:44

回答 3 已采纳 import re import os def cpf(path): dic = {} FileNames=os.listdir(path) for fn in FileN
python词频统计_python统计词频的三种方法
2020-11-24 11:14

weixin_39806948的博客 a = [1 2 3 1 1 2]dict = {}for key in a:dict[key] = dict.get(key 0) + 1 #字典的get函数可以查询键的值，0代表默认值每出现一次加1print (dict)输出结果： >>>{1: 3 2: 2 3: 1}2、利用Python的collection包下...
python 之计算词典和词频矩阵
2018-11-30 17:15

零一睡不醒的博客词频矩阵：col 数为单词的个数，列数为文本的个数。 from collections import Counter from itertools import chain import numpy as np documents = ["Human machine interface for lab ab...
python英文词频统计jieba库,python英文词频统计代码
2024-02-04 23:33

Fixf4556的博客注：利用pandas下的value_counts()，不仅可以统计list中各个元素出现的个数，还可对矩阵中的元素进行进行统计。dict[key] = dict.get(key 0) + 1 #字典的get函数可以查询键的值，0代表默认值每出现一次加1。3、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月28日

悬赏问题

¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 有没有帮写代码做实验仿真的
¥15 報錯：Person is not mapped，如何解決？
¥30 vmware exsi重置后登不上
¥15 易盾点选的cb参数怎么解啊
¥15 MATLAB运行显示错误，如何解决？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题

python怎么构建词频表和生成词频矩阵

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新