我正在寻找一个用C/C++编写的多项式朴素贝叶斯分类器,用于OpenCV。
我正在寻找算法(或现成的实现),因为它会更有帮助,因为我试图了解它是如何工作的?
我正在寻找一个用C/C++编写的多项式朴素贝叶斯分类器,用于OpenCV。
我正在寻找算法(或现成的实现),因为它会更有帮助,因为我试图了解它是如何工作的?
朴素贝叶斯分类器是一种著名的分类算法。尤其是在文本分类领域,我就拿来解释一下。
假设我们有一些训练文档{d1 , d2 , d3 , ... , dm}
,其中每个文档都可以由一组单词表示,{w1,w2,w3, ... , wn}
并且每个文档属于某个预定义的类集((c_0,c_1)
此处采用二进制案例),我们的任务是将一些新的输入文档 d 分类为 classc_0
或 class c_1
。
一种直观的方法是采用最大似然估计:即
output c_0 if P(d | c_0) > P(d | c_1) and vice versa.
所以根据我们对 d 的定义,我们可以将标准写为
P(d | c_0) = P( {w1,w2,w3...,wn} | c_0)
因为计算这个给定类的联合概率是如此复杂。所以我们做了一个强有力的假设,即单词是相互独立的,取决于类。所以这导致我们
P(d | c_0) = P({w1,w2,w3...,wn} | c_0) = P(w1|c_0)*P(w2|c_0)*P(w2|c_0)...*P(wn|c_0)
其中每个P(w | c)
都可以很容易地计算为 c 类中单词 w 的频率计数。
这个强大的假设是“Naive”这个名字的原因,因为我们只是天真地对每个单词进行级数乘法。
finally takeanswer = argmax P(d | c_0) , P(d | c_1)
会结束这个算法
我猜在您的领域中,您正在寻找的内容类似于文本分类,只是您需要提取的特征不同。