如何解决训练词向量word2vec时出现的内存问题？

用13GB的语料进行词向量的训练的话，用16GB的电脑，怎样防止内存溢出

最近在学习自己训练词向量,整理了13GB的小说语料，
昨晚设置好从分词做到词向量训练，结果今天早上看了一下内存溢出。
仅仅只完成了130M的分词，连词向量的训练都没开始就宕机了。
下图为执行代码分词工具使用的是北大的pkuseg

请问应该如何修改代码？
这是我第一次做实战性质的项目完全没有经验
还请各位前辈帮忙修改代码

#文本预处理
sentences = []
rules = u"[\u4e00-\u9fa5]+"
pattern = re.compile(rules)
f_writer = open("data/分词后的1s1lCN13G.txt", "w", encoding="utf-8")

with open("data/1s1lCN13G.txt", "r" , encoding="utf-8") as f_reader:
    for line in f_reader:
        if line == "" or line is None:
            continue
        line = " ".join(seg.cut(line))
        seg_list = pattern.findall(line)
        word_list = []
        for word in seg_list:
            if word not in stop_words:
                word_list.append(word)
        if len(word_list) > 0:
            sentences.append(word_list)
            line = " ".join(word_list)
            f_writer.write(line + "\n")
            f_writer.flush()
f_writer.close()

#模型训练
model = word2vec.Word2Vec(sentences,sg=1,hs=1,window=10,min_count=20,iter=10,size=256,workers=16)
model.save("data/13G")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-05-19 09:43
关注
https://blog.csdn.net/weixin_33810302/article/details/86796555

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

错误：'Word2Vec' object is not subscriptable，应该怎么修改呢 python 有问必答
2021-05-09 15:33

回答 5 已采纳如是标示的那行出错的话，应该是model调用错误，使用了字符作为下标引用了，如代码中引用方法，model应该是一个字典型的数据才行。检查一下model定义及类型。
word表格插入一寸照，无法填充满表格，下面有个回车符删不掉，如何解决？ word2vec
2022-04-13 12:44

回答 1 已采纳右键点图片，环绕文字改为浮于文字上方，然后改变相片大小，占满表格就行了。如有帮助，请采纳！
Word有关批注的背景填充问题 microsoft word2vec
2022-11-24 09:09

回答 1 已采纳没有这个功能
基于python实现金庸小说的word2vec词向量分析源码+数据.zip
2023-12-28 18:54

基于python实现金庸小说的word2vec词向量分析源码+数据.zip基于python实现金庸小说的word2vec词向量分析源码+数据.zip基于python实现金庸小说的word2vec词向量分析源码+数据.zip基于python实现金庸小说的word2vec词...
Word2Vec中new LineSentenceIterator()默认File类型，multipartfile咋整？ java spring
2019-07-07 22:05

回答 2 已采纳后面看到楼上的简书链接，之前有看到过，本觉得用不上，后来再看一遍，到提示了我，可以换个能够接受String类型的方法，刚好有个Collection类，虽然可以保留Multipartfile，但是目标文
获取单一语种词向量wiki.en.vec python 有问必答
2021-08-13 18:00

回答 1 已采纳你可以从这里下载该词向量文件： Page not found · GitHub Pages https://fasttext.cc/docs/en/pre
关于#训练分类器#的问题，如何解决？ opencv
2023-03-16 09:22

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ你好！根据你提供的信息，可能是以下原因导致了问题：训练时出现了错误，导致训练没有成功，因此没有生成新的xml文件。训练成功了，但是生成的xml文件保存的位置不是你期望的位
word2vec训练词向量的过程
2023-01-05 16:19

贫僧法号止尘的博客 Word2Vec 是一种预先训练的词嵌入模型，它可以在大型文本语料库上预先训练出词向量。训练过程大致如下：首先，需要准备一个较大的文本语料库，包含大量的语言样本。对文本语料库进行预处理，去掉标点符号、数字...
Word2Vec报错不可以有索引 python 有问必答
2021-05-31 08:35

回答 2 已采纳应该你传入的参数有问题了，参考一下官方文档：https://www.tensorflow.org/tutorials/text/word2vec 如果对你有帮助，可以点击我这个回答右上方的【采纳】按
请问vector<int> vec大小的问题？ c++
2019-08-04 16:41

回答 3 已采纳你说的没错。 -1 对应 0xFFFFFFFF，无符号就是 2的32次方-1，也就是4294967295
将STL/vector作为函数返回值时, 如何避免内存拷贝? c++
2022-02-16 10:39

回答 2 已采纳 func1本身不会发生拷贝，关键是你调用的方式有问题，auto推导出来的类型不是引用，所以还是发生拷贝。你需要调用的时候显式指定引用。const auto& v1=a.func1();这样就不会发生拷
基于word2vec（CBOW）方法训练词向量
2022-10-21 13:20

海洋之心的博客本项目使用的预料数据是使用的英文...word2vec是一种将word转为向量的方法，其包含两种算法，分别是skip-gram和CBOW，它们的最大区别是skip-gram是通过中心词去预测中心词周围的词，而CBOW是通过周围的词去预测中心词。
输出词向量词汇中总是夹杂着编码怎么解决 nlp python 深度学习
2022-05-31 12:29

回答 2 已采纳【有帮助请采纳】看它的编码方式是哪一种，然后可以用encode函数与decode函数进行字符串的编码与解码例如： s = '123' a = s.encode('utf-8') print(a)#
word2vec训练词向量如何优化
2023-01-05 16:17

凯二七的博客调整参数：对于每一个词，word2vec 都会学习与其相关的上下文词向量，在训练时，可以调整窗口大小、词向量维度以及忽略词频等参数，以最优化模型的表现。采用多线程训练：word2vec 模型可以使用多线程进行训练，...
NLP自然语言处理Gensim词向量word2vec常见应用
2023-01-04 15:20

Mr数据杨的博客 model = Word2Vec.load("word2vec.model") vector = model.wv['think'] print(vector) Word2Vec 预训练模型 Word2Vec 是一种预训练模型，可以通过构建一个预先学习的词向量空间来学习单词之间的语义关系。这个词向量...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

如何解决训练词向量word2vec时出现的内存问题？

2条回答 默认 最新

悬赏问题

2条回答默认最新