问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
422 浏览

python - 如何使 Doc2Vec 文档向量全部为正?

我正在尝试对 Doc2Vec 的输出使用非负矩阵分解。然而,有一个限制是不能有负输入。我如何在不做绝对值之类的事情来解释结果的情况下让它变得积极?如果有帮助,我将加载一个新段落并计算相似性,但我认为使用 Doc2Vec 会捕获更多含义。

0 投票
0 回答
112 浏览

python - 建模测试数据时出现系统退出错误

代码:-

出现以下错误:- 2017-06-08 15:24:18,013:INFO:从 C:/Users/Desktop/sentiment140.d2v 加载 Doc2Vec 对象 2017-06-08 15:24:21,556:INFO:从递归加载 wv C:/Users/Desktop/sentiment140.d2v.wv.* with mmap=None 2017-06-08 15:24:21,556:INFO:将忽略的属性 syn0norm 设置为 None 2017-06-08 15:24:21,571:INFO:从 C:/Users/Desktop/sentiment140.d2v.docvecs.* 递归加载 docvecs,mmap=None 2017-06-08 15:24:21,571:INFO:将忽略的属性 cum_table 设置为 None 2017-06-08 15:24: 21,571 : INFO : 已加载 C:/Users/Desktop/sentiment140.d2v 请输入 train_pos_count、train_neg_count 和分类器!C:\Users\AppData\Local\Continuum\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py:2889:用户警告:要退出:使用“退出”、“退出”或 Ctrl-D。warn("要退出:使用 'exit',

系统退出

0 投票
3 回答
1453 浏览

python - 去除 doc2vec 向量初始化的随机化

我正在使用预训练的 doc2vec BOW 模型(AP-news)。我正在执行以下操作:

但是,如果我再次为相同的文本计算 vec,那么我将得到相同文本的不同向量表示。为什么会发生这种情况,我该如何避免这种情况。如果我给出完全相同的文本,我希望返回相同的向量。我尝试关注这篇文章,但似乎没有帮助。

0 投票
1 回答
464 浏览

python - 如何计算 gensim.Doc2Vec 中的频率?

我正在训练一个模型gensim,我的语料库是许多短句,每个句子都有一个频率,表明它在整个语料库中出现的次数。如您所见,我将其实现如下,我只是选择重复freq次数。无论如何,如果数据很小,它应该可以工作,但是当数据增长时,频率可能会很大,它会占用太多内存,我的机器负担不起。

那么1.我可以只计算每条记录的频率而不是重复freq次数吗?2.或者有其他节省内存的方法吗?

语料库是这样的:

0 投票
1 回答
2081 浏览

python - 如何提高 doc2vec 模型中两个文档(句子)的余弦相似度?

我正在通过模型使用gensim库在 Python 中构建 NLP 聊天应用程序。doc2vec我有硬编码的文档并给出了一组训练示例,我通过抛出一个用户问题来测试模型,然后作为第一步找到最相似的文档。在这种情况下,我的测试问题是训练示例中文档的精确副本。

结果:

SENT_4和的相似性SENT_3-0.08253869414329529在它应该为 1 时才出现,因为它们完全相同。我应该如何提高这种准确性?是否有特定的培训文件方式,我错过了什么?

0 投票
1 回答
710 浏览

doc2vec - doc2vec: Pull documents from inferred document

i am new in word/paragraph embedding and trying to understand via doc2vec in GENSIM. I would like to seek advice on whether my understanding is incorrect. My understanding is that doc2vec is potentially able to return documents that may have semantically similar content. As a test, i tried the following and have the following questions.

Question 1: I noted that every run of training with the exact same parameters and examples will result in a model that produces very different results from previous trains (E.g. Different vectors and different ranking of similar documents eveytime).. Why is this so indeterministic? As such, can this be reliably used for any practical work?

Question 2: Why am i not getting the tag ids of the top similar documents instead? Results: [('day',0.477),('2016',0.386)....

Question 2 answer: The problem was due to model.most_similar, should use model.docvecs.most_similar instead

Please advise if i misunderstood anything?

Data prep

I had created multiple documents with a sentence each. I had deliberately made it such that they are distinctly different semantically.

A: It is a fine summer weather, with the birds singing and sun shining bright.

B: It is a lovely day indeed, if only i had a degree in appreciating.

C: 2016-2017 Degree in Earth Science Earthly University

D: 2009-2010 Dip in Life and Nature Life College

Query: Degree in Philosophy from Thinking University from 2009 to 2010

Training

I trained the documents (tokens as words, running index as tag)

Inference

I then attempted to infer the query. Although they are many missing words in the vocab for the query, i would expect closest document similarity results for C and D. But the results only gave me a list of 'words' followed by a similarity score. I am unsure if my understanding is wrong. Below is my code extract.

0 投票
1 回答
1536 浏览

python - 如何保存 gensim doc2vec 模型

训练模型后,我使用 infer_vector() 成功获取向量。但是我保存模型并再次加载后,出现如下错误:

整个代码是:`

0 投票
1 回答
7530 浏览

python - 如何从gensim中的文档中删除停用词?

我正在使用它的gensim包在 Python 中使用 Doc2Vec 技术构建一个 NLP 聊天应用程序。我已经完成了标记化和词干化。我想从训练集中以及用户提出的问题中删除停用词(以测试它是否效果更好)。

这是我的代码。

有没有办法可以sentences直接删除停用词并获得一组没有停用词的新词汇?

0 投票
1 回答
125 浏览

nlp - 训练网络以查找相似的文本主体

我有多个文本文件,我正在尝试找到一种方法来识别相似的文本主体。文件本身由一个“平均”大小的段落组成。除此之外,我还有一些数据可以用作数据的标签,如果我要深入了解诸如 saimese 网络之类的神经网络的话。

虽然这是一个选项,但我想知道的另一种可能性是使用诸如 doc2vec 之类的东西来处理所有段落(删除停用词等),然后尝试根据来自 doc2vec 的余弦找到类似的文本文件。

我想知道上述方法在产生的结果方面通常如何相互比较,并且 doc2vec 是否足够强大和准确,可以将其视为一个可行的选择?我也可能忽略了一个很好的方法。

0 投票
1 回答
16393 浏览

python - 如何在 gensim.doc2vec 中使用 infer_vector?

-0.0232586

我使用训练数据来训练doc2vec模型。然后,我用infer_vector()给定一个训练数据中的文档来生成一个向量。但它们是不同的。cosine 的值是如此之小( )保存在模型中的 与生成的-0.0232586之间的距离。但这不合理啊……vector2doc2vecvector1infer_vector()

我找到我的错误。我应该使用'string=u'民生为了父亲我要坚强地...''而不是'string='民生为了父亲我要坚强地...''。当我以这种方式纠正时,余弦距离达到 0.889342。