6

我正在寻找方法来提高 TF-IDF 称重方案在字符串匹配(相似性)中的准确性。主要问题是 TF-IDF 对 stings 中的拼写错误很敏感,并且大多数大型数据集往往有拼写错误。我意识到编辑距离的变体(基于字符的相似性度量——levienshtein、仿射气体、Jaro 和 Jaro-winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于单词乱序的情况字符串。

因此,我想使用编辑距离校正能力来提高 TF-IDF 的准确性。

任何关于如何应对这一挑战的想法都将受到高度赞赏。

提前致谢。

4

1 回答 1

0

CMU 研究人员在 2003 年发表了一篇论文,他们解释了如何将 TFIDF 与 Jaro-Winkler 结合: https ://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

他们的 Java 代码也可以在 sourceforge 上作为 secondString 项目获得: https ://sourceforge.net/projects/secondstring/

这是 Javadocs 的链接: http://secondstring.sourceforge.net/javadoc/

secondString 项目页面: http ://secondstring.sourceforge.net/

于 2016-09-08T21:00:33.763 回答