YWP_2016 2016-11-11 12:02 采纳率: 0%
浏览 1971

小白求助T T 关于python构建文本词条矩阵

问题如图

所用代码(在网上搜的 做了修改)

-*- coding: cp936 -*-

textlist=open('out.txt','rb')
points=[]
for line in textlist:
a=line.split()#通过指定分隔符对字符串进行切片,默认为空格
points.append(a)#把a添加到points[]列表的最后
textlist.close()
#调用调试文本并储存到points这个list里面,list的每个元素是一个子list,即一个地点,每个子list里的元素是一个地点分出来的词

wordlist=open('自己的词库.txt','rb')
words=[]
for ele in wordlist:
b=ele.split()#通过指定分隔符对字符串进行切片,默认为空格
words.append(b[0])
wordlist.close()
#调用调试词库并储存到wordlist这个list里面,list的每个元素是一个整体文本分词降噪统计词频后的词条

import numpy as np
matrix=np.zeros((len(points),len(words)))
#创建n行(n个)m列(m个词条)的初始矩阵matrix0

for n in range(len(points)):#len()返回字符串的长度
for m in range(len(words)):
for l in range(len(points[n])):
if points[n][l] == words[m]:
matrix[n,m]+=1
#通过循环生成matrix

print (matrix)


  • 写回答

2条回答 默认 最新

  • 一窝小猪仔 2016-11-11 17:53
    关注

    两个切片可能有问题,你输出切片后的矩阵看一下。匹配可以用正则表达式吧。

    评论

报告相同问题?

悬赏问题

  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥65 汇编语言除法溢出问题