问题标签 [sentence-similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
817 浏览

python - 2个数据框列之间的相似性

我有两个数据框,每个都有一个名为 Song 的列。然而,有时歌曲的拼写不同。如何使用 difflib(或类似的东西)在另一个数据帧的新列中获取一个数据帧的 Song 拼写?

前任:

0 投票
0 回答
53 浏览

apache-spark - 使用 Spark 计算句子之间的相似度

我的问题陈述有以下输入:-

现在,我想找出这些输入语句之间的相似性。

例子:-

在示例输出中,语句彼此非常相似。

如何使用 Spark 实现这一目标?我可以使用任何逻辑代码或任何机器学习算法。

谢谢

0 投票
1 回答
951 浏览

python - 使用 word2vec 的两个句子之间的相似性

sentence1 = "this is a sentence" sentence2 = "this is sentence 2" 我想找出这两个句子之间的相似性。有人可以帮助我使用Word2Vec的完整代码吗

0 投票
2 回答
1430 浏览

python - 寻找最相似的句子匹配

我有一个包含单词和短语混合的大型数据集,例如:

我正在尝试找到一种方法来确定短句中最相似的单词,例如:

我尝试了多种方法都无济于事,包括:

dataset向量化和使用TfidfVectorizer input,然后计算向量化input值与dataset.

问题是,这只有在input包含数据集中的确切单词时才真正有效 - 例如,在input = "trai"它的余弦值为 0 的情况下,而我试图让它映射到"train"数据集中的值。

最明显的解决方案是执行简单的拼写检查,但这可能不是一个有效的选项,因为我仍然想选择最相似的结果,即使单词略有不同,即:

如果有人可以建议我可以尝试的其他潜在方法,那将不胜感激。

0 投票
1 回答
177 浏览

r - R从句子列表中提取职位

我目前正在编写一个脚本(在 R 中),以从来自各种公司高管传记的句子中提取职称。我有一个职位列表和传记中的句子列表,我想知道如何提取每个句子中的职位列表。我已经尝试将句子分解成单词(与职位名称相同)并使用 %in% 匹配它们,它可以工作,但它不会提取整个短语(董事会只是“董事会”和“董事”我不能包含“of”,因为一堆不需要的 of 将被拉出”

所以基本上我想要一些代码来查看每个句子,将其与 job_title 匹配并提取职位名称,以便结果是:“董事会”和“销售副总裁”列表。非常感谢!

0 投票
1 回答
341 浏览

python - 文本相似性方法不反映文本之间的“真实”相似性

我正在将 CV 的内容(已删除停用词的 .txt 文件)与真正紧凑的职位描述 (JD) 进行比较,如下所示:

项目管理、领导力、销售、SAP、市场营销

简历大约有 600 个单词,而 JD 则只有上面突出显示的单词。

我目前遇到的问题,我确信这是由于我缺乏知识,当我对其应用相似性度量时,我得到了令人困惑的结果。例如,我的 CV 编号 1 包含 JD 中的所有单词,有时重复不止一次。我也有 CV 2,与 JD相比,它只包含项目一词。尽管如此,当我应用余弦相似度、差异、杰卡德距离和编辑距离时,所有这些度量都返回给我 CV2 和 JD 之间更高程度的相似性,这对我来说很奇怪,因为它们之间只有一个词是相等的,而CV1拥有JD的所有单词。

我使用了错误的措施来评估相似性?如果这是一个幼稚的问题,我很抱歉,我是编程初学者。

代码如下

差异

余弦

编辑距离

杰卡德距离

正如你们所看到的,'LucasQuadros.txt'(CV1)与'job.txt'(职位描述)具有更高的相似性,即使它只包含职位描述中的一个词。

0 投票
0 回答
262 浏览

java - Java中使用word2vec Google新闻语料库的两个不同长度句子之间的余弦相似度

我想使用 word2vec 谷歌新闻语料库找到两个不同长度的句子之间的余弦相似度。这种方法可以让我找到两个相同长度的句子之间的余弦相似度,但是当长度不同时会抛出错误。

谁能帮我解决这个问题?

0 投票
0 回答
74 浏览

python-3.x - 比较两个文本文件时,如何使标记化不将缩略词及其对应部分视为相同?

我目前正在研究一种数据结构,该结构应该比较两个文本文件并列出它们共有的字符串。我的程序将两个文件的内容作为两个字符串 a 和 b 接收(每个变量一个文件的内容)。然后,我在 for 循环中使用 tokenize 函数按每个句子分隔字符串。然后将它们存储到一个集合中以避免重复条目。在比较它们之前,我删除了每个变量中的所有重复行。然后我将这两个变量相互比较,只保留它们共有的字符串。当他们相互比较时,我在最后一部分出现了一个错误。该程序将在不应该的情况下将宫缩及其适当的对应部分视为相同。例如,它会读作“不应该”和“不应该”,并且会产生错误的答案。

0 投票
0 回答
80 浏览

python - 通过相似度分数减少字符串值列表

我正面临机器学习问题;学习数据由数字、分类和日期组成。我开始仅基于数字和日期进行训练(我使用纪元、工作日、小时等转换为数字......)。除了分数很差之外,性能非常好(一百万次训练的秒数)。

问题在于大多数值高达数千的分类。

值包括设备品牌、评论等,并且是人工输入的,所以我认为有很多相似之处。为了可行性(训练时间),我可以通过数据(hense 分数)牺牲一些真实世界的表示。

编程挑战:我从这个不错的性能分析中想到了这个

示例如下:

我非常依赖 Python,所以我无法运行其他 C 实现的代码。显然,每次迭代中的函数 difflib.get_close_matches 是最贪婪的。

有更好的选择吗?还是我算法的更好方法?

正如我在百万条目上所说的那样,假设 10 列,我什至无法估计算法何时停止(超过 3 小时并且仍在我的 16 gigs RAM 和 i7 4790k CPU 上运行)

数据就像(摘录):

0 投票
1 回答
992 浏览

keras - 如何在 Keras 中使用我自己的句子嵌入?

我是 Keras 的新手,我创建了自己的带有形状的 tf_idf 句子嵌入(no_sentences,embedding_dim)。我正在尝试将此矩阵作为输入添加到 LSTM 层。我的网络看起来像这样:

我正在为应该如何塑造矩阵而苦苦挣扎。我收到此错误:

我已经检查了这篇文章:Sentence Embedding Keras,但仍然无法弄清楚。好像我错过了一些明显的东西。

知道怎么做吗?