问题标签 [sentence-similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
134 浏览

python - 更新 Word2vec 向量

我有一个包含多个文档的语料库,例如 10 个文档。这个想法是计算它们之间的相似性并将最相似的组合到一个文档中。所以结果可能是 4 个文档。到目前为止,我所做的是遍历文档并计算最相似的两个文档并将它们组合成一个文档,依此类推,直到达到阈值。我通过获取整个文档的平均向量来使用 Word2vec 向量。问题是当我进行迭代时,文档越长越相似,即使由于存在更多单词而不那么相似。关于如何解决这个问题的任何想法?

我使用了谷歌 Word2vec 模型。原因:语料库不大,无法训练模型。

注意:我不想对某些规范使用主题建模。而且文件真的很短,一半以上可能是一句话。

我真的很感谢你的建议。

0 投票
1 回答
167 浏览

word2vec - Does Mikolov 2014 Paragraph2Vec models assume sentence ordering?

In Mikolov 2014 paper regarding paragraph2Vectors, https://arxiv.org/pdf/1405.4053v2.pdf, do the authors assume in both PV-DM and PV-DBOW, the ordering of sentences need to make sense?

Imagine I am handling a stream of tweets, and each tweet is a paragraph. The paragraphs/tweets do not necessarily have ordering relations. After training, does the vector embedding for paragraphs still make sense?

0 投票
0 回答
129 浏览

string - 相似的字符串匹配算法:Jaccard、Dice、Cosine 和 Exact

我试图找出两个英文句子之间的相似性。在Jaccard、Dice、Exact 和 Cosine 字符串匹配算法中,在字符串匹配或确定接近度方面哪个是最好的?

句子 1:在 tmart.com 在线购买电子产品、电脑零件、苹果配件、健康和美容、视频游戏、手机配件、家居和花园等。我们以最优惠的价格为全球免费送货提供多种产品选择。

句子 2:使用我们的 Flipkart 应用程序购买电子产品、服装等产品 免运费和 COD。

0 投票
1 回答
1204 浏览

python - Sentence2vec 和 Word2vec 涉及停用词和命名实体

我正在做一个涉及到 sentence2vec 的 NLP 项目。我假设我将使用预先训练的词嵌入将标记转换为向量,然后继续进行句子嵌入。

由于我的句子涉及:停止词,如can't, won't, aret等,NLTK将简化为{ca, wo, are} + not
所以我不能减少它们,我不想将它们作为停用词删除,因为下面提到的句子应该有不同的嵌入。

我叫普里扬克
我的名字不是普里扬克

另一个重要的疑问是如何在我的句子向量 中合并命名实体,例如Mark K. Hogg这样的人的名字。

0 投票
2 回答
379 浏览

scala - 对 approxSimilarityJoin 进行分组和计数 spark 数据帧

如果我们有 model.approxSimilarityJoin 的数据框输出

上述命令的输出

我们希望对输出进行分组并计算相似的项目,即在上面的示例中我们有

所需的最终输出应如下所示:

0 投票
1 回答
1498 浏览

python - Gensim Doc2Vec most_similar() 方法未按预期工作

我在 Doc2Vec 上苦苦挣扎,我看不出我做错了什么。我有一个带有句子的文本文件。我想知道,对于给定的句子,我们可以在该文件中找到的最接近的句子是什么。

下面是创建模型的代码:

出于测试目的,这是我的文件:

这是我的测试:

不管训练什么参数,这显然应该告诉我最相似的句子是第 4 个(SENT_3 或 SENT_4,我不知道它们的索引是如何工作的,但句子标签是这种形式)。但结果如下:

我错过了什么?如果我尝试使用相同的句子(我喜欢狗),我有 SENT_2,然后是 1,然后是 4……我真的不明白。为什么这么低的数字?当我连续运行几次负载时,我也没有得到相同的结果。

谢谢你的帮助

0 投票
1 回答
1104 浏览

word2vec - 将句子转换为嵌入表示

如果我有一句话,例如:“离开这里”,我想使用 word2vec 嵌入。代表它..我发现了三种不同的方法来做到这一点:

1- 对于每个单词,我们计算其嵌入向量的 AVG,因此每个单词都替换为单个值。

2- 与 1 相同,但使用嵌入向量值的标准差。

3-或通过添加嵌入。矢量原样。因此,如果我在上面的示例中使用 300 长度的嵌入向量 ..,我将在最后一个(300 * 4 个单词)长度为 1200 的向量作为表示句子的最终向量。

其中哪一个最合适..?具体来说,对于句子相似性应用..

0 投票
1 回答
335 浏览

machine-learning - 模糊匹配句子到节

我有来自 srt 字幕文件的歌词。如果我想将它们与另一个歌词网站上的节匹配,最好的方法是什么?

我的方法是采用 tf-idf 向量每个歌词行并尝试模糊匹配到 staza,使用歌词行的开始和结束时间作为线索是否该行可能属于前一个节、下一个节或属于它自己的节。

我也尝试过动态编程,但不太成功。由于歌词和节的结构差异很大,有时结果会完全偏移或混乱,特别是如果有重复的合唱。

如果有递归神经网络或其他机器学习算法,是否有解决此类问题的现有方法?

0 投票
0 回答
283 浏览

nlp - 尝试自定义 Spacy 的句子相似度

我能够在加载 spacy 的 core_lg 模型的两个句子之间生成相似性,该模型在 Glove 向量上进行了训练。

现在,我想更新一些特定领域的句子并将相同的向量分配给两个句子,以便将它们视为相同。

那么,如何在我正在使用的模型之上添加这样的向量呢?

有没有其他方法可以解决这个问题?

0 投票
1 回答
47 浏览

python - 合并两列上的两个数据框

我有2个数据框:

东风BB

排名、歌曲、艺术家、年份

dfMap

艺术家、歌曲、SongId、ArtistId

我想根据艺术家和歌曲将它们合并在一起,即:在它们匹配的地方我添加额外的列,否则为 0:

艺术家、歌曲、SongId、ArtistId、排名、年份

我预见到艺术家或歌曲可能拼写错误的另一个问题。也许我可以检查相似性?不太清楚该怎么做。

对于我尝试的合并:

但得到: