我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中的频率与它们在大型文档语料库中的频率进行比较。
这个想法是,诸如“if”、“and”、“the”之类的词在所有文档中都很常见,但在本文档中,某些词会比语料库中的典型词更常见。
这应该是很标准的。这叫什么?这样做很明显,我总是在我的文档中遇到新词的问题,但在语料库评级中却没有无限重要。这是如何处理的?
我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中的频率与它们在大型文档语料库中的频率进行比较。
这个想法是,诸如“if”、“and”、“the”之类的词在所有文档中都很常见,但在本文档中,某些词会比语料库中的典型词更常见。
这应该是很标准的。这叫什么?这样做很明显,我总是在我的文档中遇到新词的问题,但在语料库评级中却没有无限重要。这是如何处理的?
它属于线性分类器的标题,其中朴素贝叶斯分类器是最著名的形式(由于其在攻击现实世界分类问题方面非常简单和稳健)。
您很可能已经检查过tf-idf 或okapi_bm25系列的其他一些指标。
您还可以查看自然语言处理工具包 nltk以获得一些现成的解决方案
更新:对于新词,应该应用平滑:Good-Turing,Laplace等。