Python 计算 tfidf ，数据较大，报错memory error

我的工作环境是，win7,python2.7.10,gensim

任务内容是根据商品信息（所属类目、分词）来确定商品间的相似度。
商品信息由50w行文本组成。
例如：
自左向右，分别为，商品ID/所属类目ID/商品标题分词

29 155 123950,53517,106068,59598,7503,171811,25618,147905,203432
49 228 73035,33202,116593,48909,92233,181255,127004,38910
59 284 123950,38910,22837,5026,15459,47776,158346,101881,131272

我基本套用了网上的gensim教程中对求解相似度的程序。问题出在最后求相似度的时候，求大侠指教！！很急！！

首先是用于将商品标题分词建成词袋（稀疏矩阵）的程序1，花了2分多，运行结束

 # -*- coding: utf-8 -*-
# 激活日志
import logging,time
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

start=time.clock()

# 导入gensim工具包
from gensim import corpora, models, similarities

# 数据源
fsource='C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\dim_items_terms.csv'

# 文件目录
fcontent='C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\test01_with_lis\\'

# 读入本地文件，用readlines()方法自动将文件内容分析成一个行的列表
f0=open(fsource)
lines=f0.readlines()
terms_list=[]
for line in lines:
    line=line.strip('\n') # 去除当前行文本末尾的换行符
    terms_single_line=line.split(',') # 按“,”分割当前行文本 es:['48909,53517,116593,55095']->['48909','53517','116593','55095']
    terms_list.append(terms_single_line) # 向列表尾部添加新列表元素
f0.close()

# 去除语料库中仅出现过一次的分词
from collections import defaultdict
frequency = defaultdict(int)
for text in terms_list:
        cnt_single=defaultdict(int)
        for token in text:
            frequency[token] += 1

terms_list = [[token for token in text if frequency[token] > 1] for text in terms_list]

# 描述同一商品的分词去重
terms_list_qc=[]
for text in terms_list:
    cnt_single=defaultdict(int)
    terms_list_qc_item=[]
    for token in text:
        cnt_single[token]+=1
        if(cnt_single[token]<=1):
            terms_list_qc_item.append(token)
    terms_list_qc.append(terms_list_qc_item)

dictionary = corpora.Dictionary(terms_list)
    # 通过 gensim.corpora.dictionary.Dictionary 给所有在语料库中出现过的分词各分配唯一的整型ID
    # 通过扫描整个文本，收集词汇数与相应的统计。
    # 可以通过 dictionary 了解到处理的预料中所包含的不同分词数以及分词与ID间的映射关系（dictionary.token2id）
dictionary.save(fcontent+'dim_items_terms.dict')
    # 保存 dictionary ,以备后用
corpus = [dictionary.doc2bow(text) for text in terms_list]
    # 函数 doc2bow() 可以统计出每个不同分词的出现次数，将该分词转换为其所对应的整型ID，并返回一个稀疏矩阵
    # 稀疏矩阵示例：[(2,1),(3,1)]，可理解为该矩阵所对应的文本中，ID为2的分词出现1次，ID为3的分词出现1次
corpora.MmCorpus.serialize(fcontent+'dim_items_terms.mm', corpus)
    # 序列化向量空间语料库并保存到本地，以备后用

end=time.clock()    
print "Time Cost for Program 00_a_trim_items_terms_to_sparse_matrix.py: %f s" % (end-start)

## 然后是程序2，词袋->tfidf->LSI，LSI可要可不要，跑了三分多

 # -*- coding: utf-8 -*-
import logging,time
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

start=time.clock()

from gensim import corpora, models, similarities

# 文件目录
fcontent='C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\test01_with_lis\\'

# 使用 step1 中创建的用向量流表示文档的语料库
dictionary = corpora.Dictionary.load(fcontent+'dim_items_terms.dict')
corpus = corpora.MmCorpus(fcontent+'dim_items_terms.mm')

# 使用 step1 中创建的语料库来初始化此转换模型
tfidf = models.TfidfModel(corpus)

# 将词袋整数计数表示的向量转换为TFIDF实数权重表示方法
corpus_tfidf = tfidf[corpus]

# 初始化一个LSI转换
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=2)
# 在原始语料库上加上双重包装: bow->tfidf->fold-in-lsi
corpus_lsi = lsi[corpus_tfidf]
    # tfidf语料通过LSI (Latent Sematic Indexing，潜在语义索引）
    # 变换为一个隐含语义的2D空间(2D，通过设置num_topics=2来完成)

# LSI模型持久化
lsi.save(fcontent+'dim_items_terms_model.lsi')
# lsi = models.LsiModel.load('C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\dim_items_terms_model.lsi')

end=time.clock()    
print "Time Cost for Program 00_b_bagofwords_to_tfidf_to_lsi.py: %f s" % (end-start)

最后是实际计算商品间相似度的程序三，这个用LSI模型来比对的话，2k行要跑四五十分钟，但我的数据量有50w。用tfidf模型来算直接报memory error 不给跑

 # -*- coding: utf-8 -*-
import logging,time
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

start=time.clock()

from gensim import corpora, models, similarities

# 数据源
fsource='C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\dim_items_terms_pre.csv'
# 文件目录
fcontent='C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\fomal\\test01_with_lis\\'

# 可以如下面三行所示根据step1中创建的语料库来初始化lsi模型，亦可直接使用step2中已初始化的lsi模型
dictionary = corpora.Dictionary.load(fcontent+'dim_items_terms.dict')
corpus = corpora.MmCorpus(fcontent+'dim_items_terms.mm')

tfidf = models.TfidfModel(corpus)
#lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

# lsi = models.LsiModel.load(fcontent+'dim_items_terms_model.lsi')

index = similarities.MatrixSimilarity(tfidf[corpus])
# 将语料库转换到LSI空间并对它进行索引
#index = similarities.MatrixSimilarity(lsi[corpus])
    # 百万文档以上，内存不足时可以使用similarities.Similarity类

# 索引的存储 
index.save(fcontent+'dim_items_terms_tfidf.index')
# index = similarities.MatrixSimilarity.load('C:\\Users\\Administrator\\Desktop\\data_after_deal\\for_python_deal\\dim_items_terms_pre.index')

# 查询对象doc -> 创建doc的稀疏矩阵 -> 将查询转换入LSI空间
# 读入本地文件，用readlines()方法自动将文件内容分析成一个行的列表
f0=open(fsource)
lines=f0.readlines()
#terms_list=[]
f1=open(fcontent+'out_recordid_tfidf.txt',"w")
f2=open(fcontent+'out_cosine_tfidf.txt',"w")
for line in lines:
    line=line.strip('\n') # 去除当前行文本末尾的换行符
    doc = line
    vec_bow = dictionary.doc2bow(doc.split(','))
    vec_lsi = tfidf[vec_bow]
    sims = index[vec_lsi]
    # 获得查询文档相对于其他经过索引的文档的相似度
    # 余弦方法返回的相似度在[-1,1]之间，越大越相似
    # 以下将相似性倒序排列
    sims = sorted(enumerate(sims), key=lambda item: -item[1])
    for i in range(500):
        f1.write(str(sims[i][0]+1)+',')# 商品记录序号
        f2.write(str(sims[i][1])+',')# 相似度
    f1.write('\n')
    f2.write('\n')
f0.close()
f1.close()
f2.close()

end=time.clock()    
print "Time Cost for Program 00_c_get_sim_itemsid_top_fh.py: %f s" % (end-start)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-04-12 07:33
关注
内存不够的情况，一般就是要升级内存，还更强劲的机器等来处理了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
运行报错'list' object has no attribute 'lower' python 有问必答
2021-06-11 15:16

回答 3 已采纳 lower是字符串转小写的，既然报了这个错，说明你的fmt是列表，不是字符串，你重点可以看看你的fmt是什么
python kmeans聚类后如何获取到分类的数据？ kmeans python 有问必答聚类
2022-01-16 22:16

回答 2 已采纳 # 整理聚类结果 listName = dfData['地区'].tolist() # 将 dfData 的首列 '地区' 转换为 listName dictCluster
NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式
2018-09-06 10:19

勤奋的郑先生的博客昨天做NLP词频矩阵处理时候，遇到内存不足的问题，遇到memoryerror的情况。查了不少资料，都让我在大的机器上跑，但是有时候资源有限。由于我的句子中的每个词语都是重要的，所以不设置停用词，也就是...
文本预处理，关键词提取时时报错 python 有问必答
2021-08-30 11:22

回答 3 已采纳 word, freq = line.strip().split(' ')这里报错是因为:一行字符串在分割后多于两个子字符串，所以报错。检查一下line的值，找出word和freq对应的索引，使用lin
如何将已经进行tfidf和glove处理好的数据导入文本 python 有问必答机器学习自然语言处理
2021-05-04 21:50

回答 3 已采纳你将数据让模型去训练学习啊
运行pyLDAvis.sklearn.prepare()时报错 python 有问必答
2021-05-04 14:48

回答 4 已采纳 DataFrame没有_data这个属性，你看看你模块版本是不是更新了相关函数方法
AI人工智能原理与Python实战：35. 人工智能在电商领域的应用
2023-12-09 09:43

禅与计算机程序设计艺术的博客随着电子商务的不断发展，人工智能（AI）在电商领域的应用也日益广泛。人工智能在电商中主要应用于推荐系统、价格预测、库存管理、客户服务等方面，以提高商家的销售额和客户满意度。在这篇文章中，我们将详细介绍...
Python爬虫的问题，急求大佬解惑 mysql python
2021-02-21 21:59

回答 14 已采纳楼主请私信我，我可以挨个为你解答每个错误的产生原因以及如何修正。
C#中Parallel.For并行处理中读取文件时出现的错误 c# 缓存
2013-10-05 08:22

回答 1 已采纳问题在朋友的帮助下已经解决，很感谢我的朋友！现在把结果和大家分享下，希望遇到类似问题的同仁能从中有所启发。用并行处理Parallel.For，要特别注意局部变量的位置。在我的代码中sr是在Pa
toarray（）时出现memory error问题解决
2019-10-08 00:23

weixin_30908941的博客在创建词频矩阵时，由于数据量很大，在转化为矩阵的toarray（）过程中出现了memory error。开始以为是电脑内存太小，后来尝试了设置虚拟内存、借室友的大电脑、甚至从gpu上跑都不行。！！！哭了后来看到了...
python实现矩阵乘法公式,如何在Python中有效地计算巨大的矩阵乘法（tfidf功能）？...
2020-12-15 22:43

格秒索杉的博客 I currently want to calculate all-pair document similarity using cosine similarity and Tfidf features in python. My basic approach is the following:from sklearn.feature_extraction.text import TfidfVec...
gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值
2022-01-17 19:40

Yae Yang的博客（顺带一提，如果corpus特别大（比如我自己导出的corpus有600多兆），直接使用eval()可能报错memory error，需要先将corpus进行几次拆分，再还原为列表，可参考我的另一篇博文gensim中corpus的列表化还原|大型嵌套...
Python数据可视化：自然语言处理算法—网购商品评论情感判定（实战篇—2）
2021-04-08 22:21

不脱发的程序猿的博客目录 1、项目背景 2、数据集 3、数据预处理 4、基于SVM的情感分类模型 5、基于word2vec中doc2vec的无监督分类模型自然语言处理（Natural Language Processing，简称NLP），是为各类企业及开发者提供的用于文本分析...
基于TF-IDF+KMeans聚类算法构建中文文本分类模型（附案例实战）
2023-03-31 20:21

艾派森的博客 transform(vectorizer.fit_transform(data['分词结果'])) tfidf_weight = tfidf.toarray() 运行上述代码时，如果你的磁盘分配内存不够会出现以下报错：具体解决方法可以参考：成功解决Windows MemoryError:...
python画三维维诺图_How to efficiently calculate huge matrix multiplication (tfidf features) in Python?...
2021-02-04 07:01

用轮子不造轮子的博客问题I currently want to calculate all-pair document similarity using cosine similarity and Tfidf features in python. My basic approach is the following:from sklearn.feature_extraction.text import ...
Python NLP自然语言处理详解
2022-10-18 13:39

wespten的博客在这个大数据时代，几乎所有事物都能用数据描述。...这也是传统大数据处理与分析的主要方面。第三类是自然语言数据。这类数据更贴近生活，对其进行统计和分析，可以让机器理解人的语言，实现机器与人的交流。
基于机器学习和TFIDF的情感分类算法，详解自然语言处理
2022-01-05 10:51

华为云开发者联盟的博客摘要：这篇文章将详细讲解自然语言处理过程，基于机器学习和TFIDF的情感分类算法，并进行了各种分类算法（SVM、RF、LR、Boosting）对比
使用python构建电影推荐器
2020-10-11 17:11

weixin_26748251的博客 In this post, I will show you how to build a movie recommender program using Python. This will be a simple project where we will be able to see how machine learning can be used in our daily life. If y...
没有解决我的问题, 去提问

悬赏问题

¥15 fesafe材料库问题
¥35 beats蓝牙耳机怎么查看日志
¥15 Fluent齿轮搅油
¥15 八爪鱼爬数据为什么自己停了
¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统

Python 计算 tfidf ，数据较大，报错memory error

******首先是用于将商品标题分词建成词袋（稀疏矩阵）的程序1，花了2分多，运行结束******

## 然后是程序2，词袋->tfidf->LSI，LSI可要可不要，跑了三分多

最后是实际计算商品间相似度的程序三，这个用LSI模型来比对的话，2k行要跑四五十分钟，但我的数据量有50w。用tfidf模型来算直接报memory error 不给跑

5条回答

悬赏问题

首先是用于将商品标题分词建成词袋（稀疏矩阵）的程序1，花了2分多，运行结束