我正在尝试制作这样一个软件,它可以智能地制作 2 个文本文档,有点像检查文本匹配的程度,不像 DIFF 我在 Google 上搜索过,我发现了 2 个东西,即 Graph 和 TFIDF。
但是我对它们都感到困惑,我不知道哪个更好,还有其他技术可以匹配文本文档
我正在尝试制作这样一个软件,它可以智能地制作 2 个文本文档,有点像检查文本匹配的程度,不像 DIFF 我在 Google 上搜索过,我发现了 2 个东西,即 Graph 和 TFIDF。
但是我对它们都感到困惑,我不知道哪个更好,还有其他技术可以匹配文本文档
您是否看过通过余弦距离测量文档相似度?余弦相似度是内积空间的两个向量之间的相似度度量,用于度量它们之间角度的余弦http://en.wikipedia.org/wiki/Cosine_similarity
如果您有文档 A 和 B,您可以为文档 A 和 B 创建两个术语向量。术语向量 A 将包含文档 A 中的单词和文档的每个单词频率。您可以使用 TF-IDF 加权代替原始词频。文档 B 也是如此。一旦有了术语向量 A 和 B,您就可以计算表示文档 A 和 B 的术语向量 A 和 B 的余弦相似度。在创建术语向量之前,您需要执行一些预处理任务,例如过滤停用词。