YWP_2016 2016-11-11 12:02 采纳率: 0%
浏览 1979

小白求助T T 关于python构建文本词条矩阵

问题如图

所用代码(在网上搜的 做了修改)

-*- coding: cp936 -*-

textlist=open('out.txt','rb')
points=[]
for line in textlist:
a=line.split()#通过指定分隔符对字符串进行切片,默认为空格
points.append(a)#把a添加到points[]列表的最后
textlist.close()
#调用调试文本并储存到points这个list里面,list的每个元素是一个子list,即一个地点,每个子list里的元素是一个地点分出来的词

wordlist=open('自己的词库.txt','rb')
words=[]
for ele in wordlist:
b=ele.split()#通过指定分隔符对字符串进行切片,默认为空格
words.append(b[0])
wordlist.close()
#调用调试词库并储存到wordlist这个list里面,list的每个元素是一个整体文本分词降噪统计词频后的词条

import numpy as np
matrix=np.zeros((len(points),len(words)))
#创建n行(n个)m列(m个词条)的初始矩阵matrix0

for n in range(len(points)):#len()返回字符串的长度
for m in range(len(words)):
for l in range(len(points[n])):
if points[n][l] == words[m]:
matrix[n,m]+=1
#通过循环生成matrix

print (matrix)


  • 写回答

2条回答 默认 最新

  • 一窝小猪仔 2016-11-11 17:53
    关注

    两个切片可能有问题,你输出切片后的矩阵看一下。匹配可以用正则表达式吧。

    评论

报告相同问题?

悬赏问题

  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?