问题标签 [doc2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 创建 word2vec 模型 syn1neg.npy 扩展
创建模型时,没有更多的扩展完成的模型
.syn1neg.npy
syn0.npy
我的代码如下:
只有 1 个模型文件
我错了哪一部分?
gensim - RuntimeError:在训练 doc2vec 时释放未锁定的锁
在 OS X 上的 Jupyter 笔记本中训练 doc2vec 模型时出现以下错误。尽管我已经成功地在其他数据集上训练了模型,但对于我当前的数据集,该错误是可重现的(尽管它发生的特定线程发生了变化)。
python - doc2vec 中推断和训练向量之间的相似性不一致
我通过使用大量文本数据从 gensim 训练了一个段落向量模型。我做了下一个测试:我验证了任何句子的索引,然后为它推断出一个向量
当我计算余弦相似度时,它非常低(预期相反)。
如果我做错了什么,有人可以告诉我吗?
谢谢
python - Pandas 数据框到 doc2vec.LabeledSentence
我有这个数据框:
类型 user_id :字符串
类型 product_id :整数
我想使用这个数据框来创建一个 Doc2vec 语料库。所以,我需要使用 LabeledSentence 函数来创建一个 dict :
{tags : user_id, words: all product idsorder by each user_id}
但是数据框的形状是 (32434489, 3),所以我应该避免使用循环来创建我的标记句子。
我尝试使用多处理运行此功能(如下),但太长了。
您是否知道将我的数据框转换为 Doc2vec 语料库的良好格式,其中标签是 user_id,单词是 user_id 的产品列表?
python - doc2vec.infer_vector 如何跨词组合?
我使用默认设置的 train(..) 训练了一个 doc2vec 模型。那行得通,但是现在我想知道 infer_vector 如何跨输入单词组合,它只是单个单词向量的平均值吗?
这些不加起来,所以我想知道我在误解什么。
gensim - 使用 gensim 访问 docvector 的问题
我正在尝试使用 gensim (ver 1.0.1)doc2vec
来获取文档的余弦相似度。这应该相对简单,但是我在检索文档的向量时遇到了问题,所以我可以做余弦相似度。当我尝试按我在训练中给它的标签检索文档时,我得到一个关键错误。
例如,
print(model.docvecs['4_99.txt'])
会告诉我没有4_99.txt
.
但是,如果我打印print(model.docvecs.doctags)
,我会看到如下内容:
'4_99.txt_3': Doctag(offset=1644, word_count=12, doc_count=1)
因此,对于每个文档,似乎都doc2vec
将每个句子保存为“文档名称下划线数字”
所以我要么 A) 训练不正确,要么 B) 不明白如何检索文档向量以便我可以做similarity(d1, d2)
有谁可以帮我离开这里吗?
这是我训练 doc2vec 的方法:
这使用这个类
class LabeledLineSentence(object):
我从一个网络教程(https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1)中获得了这门课,以帮助我解决 Doc2Vec 奇怪的数据格式要求,我不完全理解它是诚实。看起来这里写的这个类正在_n
为每个句子添加,但在教程中似乎他们仍然检索文档向量,只给它文件名......那么我在这里做错了什么?
python-2.7 - 如何使用 spark 在 AWS 集群上训练 doc2vec
我正在使用 python Gensim 来训练 doc2vec。是否有可能允许此代码在 AWS (s3) 上分发。先感谢您
machine-learning - 文档向量中的哪些“信息”使情绪预测起作用?
基于文档向量的情绪预测效果很好,如示例所示: https ://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb http://linanqiu.github.io /2015/10/07/word2vec-sentiment/
我想知道向量中有什么模式使这成为可能。我认为这应该是向量的相似性使得这成为可能。Gensim 相似度度量依赖于余弦相似度。因此,我尝试了以下方法:
随机初始化一个固定的“比较”向量,得到“比较”向量与训练和测试集中所有其他向量的余弦相似度,使用训练集的相似度和标签来估计逻辑回归模型,用测试集。
看起来像这样,其中 train/test_arrays 包含文档向量和 train/test_labels 标签为 0 或 1。(注意,文档向量是从 genism doc2vec 获得的并且经过良好训练,如果直接用作逻辑回归):
事实证明,这种方法行不通,仅将测试集预测为 50%....所以,我的问题是,向量中有什么“信息”,如果不是,则使基于向量的预测有效向量的相似性?还是我的方法根本无法正确捕获向量的相似性?
python - 为什么在 gensim doc2vec 中的单词或文档向量之间几乎所有的余弦相似度都是正的?
我在 gensim 中使用 Doc2Vec.docvecs.similarity() 计算了文档相似度。现在,如果 gensim 使用余弦的绝对值作为相似度度量,我希望余弦相似度在 [0.0, 1.0] 范围内,或者如果不是,则大约一半为负值。
然而,我看到的是一些相似性是负面的,但它们非常罕见——在我的 30000 个文档集中,成对相似性不到 1%。
为什么几乎所有的相似之处都是积极的?