r - 量化两个句子之间的相似度

问问题 2017-09-21T17:21:55.893

690 次

对于一个项目，我想量化两个文本字符串之间的相似性。字符串是研究提案的标题，在研究人员内部，我们希望计算它们之间的相似度。数据框当前存在三列：（a）研究人员 ID，（b）项目标题，（c）项目标题。我有数百行（研究人员）。

假设我们在一个研究人员中有两个项目名称：

“如何通过查看 DNA 来解决心血管疾病。”

“基因和老年男性的高心血管疾病风险。”

理想情况下，相似性的度量不仅可以找到确切的词（“cardioviscular”和“disease”），还可以将“DNA”与“Genes”联系起来。此外，所有不重要的词（“how”、“can”、“be”、“at”等）都应删除。

我对这些问题没有经验。我如何能够为大量研究人员量化这两个字符串变量之间的相似性？在理想情况下，我会在 R 中对此进行编程。

0 回答 0