我正在使用 scikit learn、naive bayes 和 countvectorizer 进行方言文本分类。到目前为止,我只做 3 种方言文本分类。我将添加一种新的方言(或者实际上,这些方言的正式语言)。问题是,我要添加的新文本与其他 3 种方言有很多相同的词。所以我在一份研究文件中阅读了以下内容:
我们从收集的数据中为每种方言训练一个 n-gram 模型。为了训练 MSA 模型,我们从阿拉伯联合国语料库和新闻集中选择句子。所有方言和 MSA 模型共享相同的词汇表,因此可以正确比较困惑度。在分类时,给定一个输入句子,分类器计算每种方言类型的困惑度,并选择困惑度最小的一个作为标签。
他们的意思是 MSA(现代标准阿拉伯语),这是这些方言的正式语言。他们如何计算困惑度?他们只是使用朴素贝叶斯还是更多?