perl - Perl 中的 N-Gram、tf-idf 和余弦相似度

Question

我正在尝试在每行的多个单词中进行一些模式“挖掘”。我已经使用 perl 中的 Text::Ngrams 模块完成了 N-gram 分析，它给出了每个单词的频率。然而，我对本文中的发现模式感到非常困惑。

我认为 tf-idf 也发现了频率，但这与我所做的 Ngram 分析有什么不同，以及相似性测量也有什么帮助。

请问是否有任何 perl 模块或代码片段可以让我理解其中的一些概念。

请我来自物理背景，但必须做一些模式识别，所以我对其中一些有点陌生，对此主题的良好参考将不胜感激。

score 0 · Accepted Answer

假设您有一堆 N 文档并且您：

想知道文档 X（包含一篇关于如何成为健美运动员的文章）是否与另一个您不知道的文档 Y 相似。如果文档 Y 与文档 X“相似”，它可能包含与健美相关的常用术语——例如：举重、杠铃、哑铃，也许还有阿诺德。

因此，文档 X 和文档 Y 的相似度会非常高。衡量这种相似性的一种方法是使用这两个文档之间的余弦角。

使用CPAN 搜索Perl 模块。例如，要计算余弦相似度，您可以尝试Text::Document模块

1 回答 1