我正在尝试在每行的多个单词中进行一些模式“挖掘”。我已经使用 perl 中的 Text::Ngrams 模块完成了 N-gram 分析,它给出了每个单词的频率。然而,我对本文中的发现模式感到非常困惑。
我认为 tf-idf 也发现了频率,但这与我所做的 Ngram 分析有什么不同,以及相似性测量也有什么帮助。
请问是否有任何 perl 模块或代码片段可以让我理解其中的一些概念。
请我来自物理背景,但必须做一些模式识别,所以我对其中一些有点陌生,对此主题的良好参考将不胜感激。
我正在尝试在每行的多个单词中进行一些模式“挖掘”。我已经使用 perl 中的 Text::Ngrams 模块完成了 N-gram 分析,它给出了每个单词的频率。然而,我对本文中的发现模式感到非常困惑。
我认为 tf-idf 也发现了频率,但这与我所做的 Ngram 分析有什么不同,以及相似性测量也有什么帮助。
请问是否有任何 perl 模块或代码片段可以让我理解其中的一些概念。
请我来自物理背景,但必须做一些模式识别,所以我对其中一些有点陌生,对此主题的良好参考将不胜感激。
假设您有一堆 N 文档并且您:
想知道文档 X(包含一篇关于如何成为健美运动员的文章)是否与另一个您不知道的文档 Y 相似。如果文档 Y 与文档 X“相似”,它可能包含与健美相关的常用术语——例如:举重、杠铃、哑铃,也许还有阿诺德。
因此,文档 X 和文档 Y 的相似度会非常高。衡量这种相似性的一种方法是使用这两个文档之间的余弦角。
余弦相似度参考: http: //www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
使用CPAN 搜索Perl 模块。例如,要计算余弦相似度,您可以尝试Text::Document模块