BigPig_LittleTail 2019-08-04 11:22 采纳率: 0%
浏览 2218

doc2vec如何在已有的模型基础上进行增量训练,以获得新文本的向量表示

我使用gensim进行doc2vec的训练。

描述问题:

初次训练使用训练集:doc1、doc2。获得模型model1。

增量训练加载model1,使用训练集doc3、doc4。

虽然增量训练改变了model1中的doc1和doc2对应的向量,但是doc3和doc4并没有产生新的向量。

我想请问如何增量训练才能获得doc3和doc4这些新增的文档的向量表示呢?

感激不尽。

def train_doc2vec(self, dir_path):
        corpus = list(self.__build_corpus(dir_path))
        if self.doc2vec_model:
            self.doc2vec_model.build_vocab(corpus, update=True)
            self.doc2vec_model.train(corpus, total_examples=self.doc2vec_model.corpus_count,
                                     epochs=self.doc2vec_model.epochs)
            self.doc2vec_model.save(self.doc2vec_model_path)
        else:
            model = Doc2Vec(vector_size=50, min_count=2, epochs=40)
            model.build_vocab(corpus)
            model.train(corpus, total_examples=model.corpus_count, epochs=model.epochs)
            model.save(self.doc2vec_model_path)
  • 写回答

1条回答 默认 最新

  • dabocaiqq 2019-08-05 21:51
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器