我是 NLP(自然语言处理)的新成员。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个相似句子的系统)。对于那个识别器,我将在三时应用各种措施级别即,词汇,语法,语义。在词汇级别,有多种相似性度量,例如余弦相似度,匹配系数,雅卡系数……等。对于这些度量,我使用的是谢菲尔德大学开发的 simMetrics 包。这是一个用于不同相似度度量的精彩包。它包含许多相似度度量。但是对于 levenshtein 距离和 jaro-winkler 距离度量,代码仅在 *字符级别*仅。我需要句子级别的代码(即考虑单个单词而不是字符)。而且 SimMetrics 中没有曼哈顿距离的代码...我请求专家给我一个开发所需代码的建议(或)在句子级别为我提供上述措施的代码。
非常感谢您花时间和精力帮助我。