我使用gensim进行doc2vec的训练。
描述问题:
初次训练使用训练集:doc1、doc2。获得模型model1。
增量训练加载model1,使用训练集doc3、doc4。
虽然增量训练改变了model1中的doc1和doc2对应的向量,但是doc3和doc4并没有产生新的向量。
我想请问如何增量训练才能获得doc3和doc4这些新增的文档的向量表示呢?
感激不尽。
def train_doc2vec(self, dir_path):
corpus = list(self.__build_corpus(dir_path))
if self.doc2vec_model:
self.doc2vec_model.build_vocab(corpus, update=True)
self.doc2vec_model.train(corpus, total_examples=self.doc2vec_model.corpus_count,
epochs=self.doc2vec_model.epochs)
self.doc2vec_model.save(self.doc2vec_model_path)
else:
model = Doc2Vec(vector_size=50, min_count=2, epochs=40)
model.build_vocab(corpus)
model.train(corpus, total_examples=model.corpus_count, epochs=model.epochs)
model.save(self.doc2vec_model_path)