1

对于一个项目,我想量化两个文本字符串之间的相似性。字符串是研究提案的标题,在研究人员内部,我们希望计算它们之间的相似度。数据框当前存在三列:(a)研究人员 ID,(b)项目标题,(c)项目标题。我有数百行(研究人员)。

假设我们在一个研究人员中有两个项目名称:

“如何通过查看 DNA 来解决心血管疾病。”

“基因和老年男性的高心血管疾病风险。”

理想情况下,相似性的度量不仅可以找到确切的词(“cardioviscular”和“disease”),还可以将“DNA”与“Genes”联系起来。此外,所有不重要的词(“how”、“can”、“be”、“at”等)都应删除。

我对这些问题没有经验。我如何能够为大量研究人员量化这两个字符串变量之间的相似性?在理想情况下,我会在 R 中对此进行编程。

4

0 回答 0