我想得到句子之间的余弦相似度。我已经用 gensim 测试了 doc2vec,并且只用代码中给出的几句话对其进行了训练。但是我想使用每行一个句子的文本文档来训练我的模型。如何使用带有句子的文档?
问问题
251 次
1 回答
0
如果您的文档已经是文本文件的形式,每行一个句子,那么 gensim(或其他地方)包含的许多示例都显示了如何处理这样的语料库。
例如,gensim
在其docs/notebooks
目录中捆绑了一个介绍性 Doc2Vec 教程笔记本,您也可以在项目 github 存储库中在线查看:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb
它的单元格 (3) 显示并且单元格 (4) 使用一个函数来逐行读取文件,并将其转换为TaggedDocument
模型所需的文本。
于 2018-11-11T15:33:01.380 回答