BigPig_LittleTail 2019-08-04 11:22 采纳率: 0%
浏览 2218

doc2vec如何在已有的模型基础上进行增量训练,以获得新文本的向量表示

我使用gensim进行doc2vec的训练。

描述问题:

初次训练使用训练集:doc1、doc2。获得模型model1。

增量训练加载model1,使用训练集doc3、doc4。

虽然增量训练改变了model1中的doc1和doc2对应的向量,但是doc3和doc4并没有产生新的向量。

我想请问如何增量训练才能获得doc3和doc4这些新增的文档的向量表示呢?

感激不尽。

def train_doc2vec(self, dir_path):
        corpus = list(self.__build_corpus(dir_path))
        if self.doc2vec_model:
            self.doc2vec_model.build_vocab(corpus, update=True)
            self.doc2vec_model.train(corpus, total_examples=self.doc2vec_model.corpus_count,
                                     epochs=self.doc2vec_model.epochs)
            self.doc2vec_model.save(self.doc2vec_model_path)
        else:
            model = Doc2Vec(vector_size=50, min_count=2, epochs=40)
            model.build_vocab(corpus)
            model.train(corpus, total_examples=model.corpus_count, epochs=model.epochs)
            model.save(self.doc2vec_model_path)
  • 写回答

1条回答 默认 最新

  • dabocaiqq 2019-08-05 21:51
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 想问一下stata17中这段代码哪里有问题呀
  • ¥15 flink cdc无法实时同步mysql数据
  • ¥100 有人会搭建GPT-J-6B框架吗?有偿
  • ¥15 求差集那个函数有问题,有无佬可以解决
  • ¥15 【提问】基于Invest的水源涵养
  • ¥20 微信网友居然可以通过vx号找到我绑的手机号
  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决