我正在寻找方法来提高 TF-IDF 称重方案在字符串匹配(相似性)中的准确性。主要问题是 TF-IDF 对 stings 中的拼写错误很敏感,并且大多数大型数据集往往有拼写错误。我意识到编辑距离的变体(基于字符的相似性度量——levienshtein、仿射气体、Jaro 和 Jaro-winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于单词乱序的情况字符串。
因此,我想使用编辑距离校正能力来提高 TF-IDF 的准确性。
任何关于如何应对这一挑战的想法都将受到高度赞赏。
提前致谢。