问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4248 浏览

python - 创建 word2vec 模型 syn1neg.npy 扩展

创建模型时,没有更多的扩展完成的模型

.syn1neg.npy

syn0.npy

我的代码如下:

只有 1 个模型文件

我错了哪一部分?

0 投票
1 回答
605 浏览

gensim - RuntimeError:在训练 doc2vec 时释放未锁定的锁

在 OS X 上的 Jupyter 笔记本中训练 doc2vec 模型时出现以下错误。尽管我已经成功地在其他数据集上训练了模型,但对于我当前的数据集,该错误是可重现的(尽管它发生的特定线程发生了变化)。

0 投票
2 回答
607 浏览

python - doc2vec 中推断和训练向量之间的相似性不一致

我通过使用大量文本数据从 gensim 训练了一个段落向量模型。我做了下一个测试:我验证了任何句子的索引,然后为它推断出一个向量

当我计算余弦相似度时,它非常低(预期相反)。

如果我做错了什么,有人可以告诉我吗?

谢谢

0 投票
1 回答
4797 浏览

gensim - 当 dbow_words 设置为 1 或 0 时,doc2vec 模型有什么不同?

我阅读了此页面,但我不明白基于以下代码构建的模型之间有什么不同。我知道当 dbow_words 为 0 时,文档向量的训练会更​​快。

第一个模型

第二个模型

0 投票
1 回答
1838 浏览

python - Pandas 数据框到 doc2vec.LabeledSentence

我有这个数据框:

类型 user_id :字符串
类型 product_id :整数

我想使用这个数据框来创建一个 Doc2vec 语料库。所以,我需要使用 LabeledSentence 函数来创建一个 dict :
{tags : user_id, words: all product idsorder by each user_id}

但是数据框的形状是 (32434489, 3),所以我应该避免使用循环来创建我的标记句子。

我尝试使用多处理运行此功能(如下),但太长了。

您是否知道将我的数据框转换为 Doc2vec 语料库的良好格式,其中标签是 user_id,单词是 user_id 的产品列表?

0 投票
1 回答
541 浏览

python - doc2vec.infer_vector 如何跨词组合?

我使用默认设置的 train(..) 训练了一个 doc2vec 模型。那行得通,但是现在我想知道 infer_vector 如何跨输入单词组合,它只是单个单词向量的平均值吗?

这些不加起来,所以我想知道我在误解什么。

0 投票
1 回答
482 浏览

gensim - 使用 gensim 访问 docvector 的问题

我正在尝试使用 gensim (ver 1.0.1)doc2vec来获取文档的余弦相似度。这应该相对简单,但是我在检索文档的向量时遇到了问题,所以我可以做余弦相似度。当我尝试按我在训练中给它的标签检索文档时,我得到一个关键错误。

例如, print(model.docvecs['4_99.txt']) 会告诉我没有4_99.txt.

但是,如果我打印print(model.docvecs.doctags),我会看到如下内容: '4_99.txt_3': Doctag(offset=1644, word_count=12, doc_count=1)

因此,对于每个文档,似乎都doc2vec将每个句子保存为“文档名称下划线数字”

所以我要么 A) 训练不正确,要么 B) 不明白如何检索文档向量以便我可以做similarity(d1, d2)

有谁可以帮我离开这里吗?

这是我训练 doc2vec 的方法:

这使用这个类

class LabeledLineSentence(object):

我从一个网络教程(https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1)中获得了这门课,以帮助我解决 Doc2Vec 奇怪的数据格式要求,我不完全理解它是诚实。看起来这里写的这个类正在_n为每个句子添加,但在教程中似乎他们仍然检索文档向量,只给它文件名......那么我在这里做错了什么?

0 投票
1 回答
610 浏览

python-2.7 - 如何使用 spark 在 AWS 集群上训练 doc2vec

我正在使用 python Gensim 来训练 doc2vec。是否有可能允许此代码在 AWS (s3) 上分发。先感谢您

0 投票
1 回答
175 浏览

machine-learning - 文档向量中的哪些“信息”使情绪预测起作用?

基于文档向量的情绪预测效果很好,如示例所示: https ://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb http://linanqiu.github.io /2015/10/07/word2vec-sentiment/

我想知道向量中有什么模式使这成为可能。我认为这应该是向量的相似性使得这成为可能。Gensim 相似度度量依赖于余弦相似度。因此,我尝试了以下方法:

随机初始化一个固定的“比较”向量,得到“比较”向量与训练和测试集中所有其他向量的余弦相似度,使用训练集的相似度和标签来估计逻辑回归模型,用测试集。

看起来像这样,其中 train/test_arrays 包含文档向量和 train/test_labels 标签为 0 或 1。(注意,文档向量是从 genism doc2vec 获得的并且经过良好训练,如果直接用作逻辑回归):

事实证明,这种方法行不通,仅将测试集预测为 50%....所以,我的问题是,向量中有什么“信息”,如果不是,则使基于向量的预测有效向量的相似性?还是我的方法根本无法正确捕获向量的相似性?

0 投票
1 回答
1525 浏览

python - 为什么在 gensim doc2vec 中的单词或文档向量之间几乎所有的余弦相似度都是正的?

我在 gensim 中使用 Doc2Vec.docvecs.similarity() 计算了文档相似度。现在,如果 gensim 使用余弦的绝对值作为相似度度量,我希望余弦相似度在 [0.0, 1.0] 范围内,或者如果不是,则大约一半为负值。

然而,我看到的是一些相似性是负面的,但它们非常罕见——在我的 30000 个文档集中,成对相似性不到 1%。

为什么几乎所有的相似之处都是积极的?