“sentence-similarity”的相关标签问题

0 投票

1 回答

817 浏览

python - 2个数据框列之间的相似性

我有两个数据框，每个都有一个名为 Song 的列。然而，有时歌曲的拼写不同。如何使用 difflib（或类似的东西）在另一个数据帧的新列中获取一个数据帧的 Song 拼写？

前任：

2018-05-28T06:15:07.327

0 投票

0 回答

53 浏览

apache-spark - 使用 Spark 计算句子之间的相似度

我的问题陈述有以下输入：-

现在，我想找出这些输入语句之间的相似性。

例子：-

在示例输出中，语句彼此非常相似。

如何使用 Spark 实现这一目标？我可以使用任何逻辑代码或任何机器学习算法。

谢谢

apache-spark apache-spark-sql apache-spark-mllib similarity sentence-similarity

2018-05-29T01:19:53.527

0 投票

1 回答

951 浏览

python - 使用 word2vec 的两个句子之间的相似性

sentence1 = "this is a sentence" sentence2 = "this is sentence 2" 我想找出这两个句子之间的相似性。有人可以帮助我使用Word2Vec的完整代码吗

python machine-learning deep-learning sentence-similarity

2018-06-13T08:33:24.000

0 投票

2 回答

1430 浏览

python - 寻找最相似的句子匹配

我有一个包含单词和短语混合的大型数据集，例如：

我正在尝试找到一种方法来确定短句中最相似的单词，例如：

我尝试了多种方法都无济于事，包括：

dataset向量化和使用TfidfVectorizer input，然后计算向量化input值与dataset.

问题是，这只有在input包含数据集中的确切单词时才真正有效 - 例如，在input = "trai"它的余弦值为 0 的情况下，而我试图让它映射到"train"数据集中的值。

最明显的解决方案是执行简单的拼写检查，但这可能不是一个有效的选项，因为我仍然想选择最相似的结果，即使单词略有不同，即：

如果有人可以建议我可以尝试的其他潜在方法，那将不胜感激。

python scikit-learn nlp cosine-similarity sentence-similarity

user9966656

2018-06-20T15:28:51.120

0 投票

1 回答

177 浏览

r - R从句子列表中提取职位

我目前正在编写一个脚本（在 R 中），以从来自各种公司高管传记的句子中提取职称。我有一个职位列表和传记中的句子列表，我想知道如何提取每个句子中的职位列表。我已经尝试将句子分解成单词（与职位名称相同）并使用 %in% 匹配它们，它可以工作，但它不会提取整个短语（董事会只是“董事会”和“董事”我不能包含“of”，因为一堆不需要的 of 将被拉出”

所以基本上我想要一些代码来查看每个句子，将其与 job_title 匹配并提取职位名称，以便结果是：“董事会”和“销售副总裁”列表。非常感谢！

r list nlp feature-extraction sentence-similarity

2018-06-22T09:44:48.667

0 投票

1 回答

341 浏览

python - 文本相似性方法不反映文本之间的“真实”相似性

我正在将 CV 的内容（已删除停用词的 .txt 文件）与真正紧凑的职位描述 (JD) 进行比较，如下所示：

项目管理、领导力、销售、SAP、市场营销

简历大约有 600 个单词，而 JD 则只有上面突出显示的单词。

我目前遇到的问题，我确信这是由于我缺乏知识，当我对其应用相似性度量时，我得到了令人困惑的结果。例如，我的 CV 编号 1 包含 JD 中的所有单词，有时重复不止一次。我也有 CV 2，与 JD相比，它只包含项目一词。尽管如此，当我应用余弦相似度、差异、杰卡德距离和编辑距离时，所有这些度量都返回给我 CV2 和 JD 之间更高程度的相似性，这对我来说很奇怪，因为它们之间只有一个词是相等的，而CV1拥有JD的所有单词。

我使用了错误的措施来评估相似性？如果这是一个幼稚的问题，我很抱歉，我是编程初学者。

代码如下

差异

余弦

编辑距离

杰卡德距离

正如你们所看到的，'LucasQuadros.txt'（CV1）与'job.txt'（职位描述）具有更高的相似性，即使它只包含职位描述中的一个词。

python nlp text-mining similarity sentence-similarity

2018-07-30T10:02:19.760

0 投票

0 回答

262 浏览

java - Java中使用word2vec Google新闻语料库的两个不同长度句子之间的余弦相似度

我想使用 word2vec 谷歌新闻语料库找到两个不同长度的句子之间的余弦相似度。这种方法可以让我找到两个相同长度的句子之间的余弦相似度，但是当长度不同时会抛出错误。

谁能帮我解决这个问题？

java word2vec cosine-similarity sentence-similarity

2018-08-28T12:23:04.820

0 投票

0 回答

74 浏览

python-3.x - 比较两个文本文件时，如何使标记化不将缩略词及其对应部分视为相同？

我目前正在研究一种数据结构，该结构应该比较两个文本文件并列出它们共有的字符串。我的程序将两个文件的内容作为两个字符串 a 和 b 接收（每个变量一个文件的内容）。然后，我在 for 循环中使用 tokenize 函数按每个句子分隔字符串。然后将它们存储到一个集合中以避免重复条目。在比较它们之前，我删除了每个变量中的所有重复行。然后我将这两个变量相互比较，只保留它们共有的字符串。当他们相互比较时，我在最后一部分出现了一个错误。该程序将在不应该的情况下将宫缩及其适当的对应部分视为相同。例如，它会读作“不应该”和“不应该”，并且会产生错误的答案。

python-3.x nltk tokenize cs50 sentence-similarity

2018-09-10T04:05:25.673

0 投票

0 回答

80 浏览

python - 通过相似度分数减少字符串值列表

我正面临机器学习问题；学习数据由数字、分类和日期组成。我开始仅基于数字和日期进行训练（我使用纪元、工作日、小时等转换为数字......）。除了分数很差之外，性能非常好（一百万次训练的秒数）。

问题在于大多数值高达数千的分类。

值包括设备品牌、评论等，并且是人工输入的，所以我认为有很多相似之处。为了可行性（训练时间），我可以通过数据（hense 分数）牺牲一些真实世界的表示。

编程挑战：我从这个不错的性能分析中想到了这个

示例如下：

我非常依赖 Python，所以我无法运行其他 C 实现的代码。显然，每次迭代中的函数 difflib.get_close_matches 是最贪婪的。

有更好的选择吗？还是我算法的更好方法？

正如我在百万条目上所说的那样，假设 10 列，我什至无法估计算法何时停止（超过 3 小时并且仍在我的 16 gigs RAM 和 i7 4790k CPU 上运行）

数据就像（摘录）：

python machine-learning categorical-data sentence-similarity

2018-09-12T17:38:17.627

0 投票

1 回答

992 浏览

keras - 如何在 Keras 中使用我自己的句子嵌入？

我是 Keras 的新手，我创建了自己的带有形状的 tf_idf 句子嵌入（no_sentences，embedding_dim）。我正在尝试将此矩阵作为输入添加到 LSTM 层。我的网络看起来像这样：

我正在为应该如何塑造矩阵而苦苦挣扎。我收到此错误：

我已经检查了这篇文章：Sentence Embedding Keras，但仍然无法弄清楚。好像我错过了一些明显的东西。

知道怎么做吗？

keras nlp lstm word-embedding sentence-similarity

2018-10-08T14:57:02.547

问题标签 [sentence-similarity]

Reference