我面临的分类问题似乎适用于朴素贝叶斯分类器 (NBC)。但是,我有一个问题:通常 NBC 的工作原理是根据随机变量 X 的观察值 x 从一组 C 类中估计最可能的 C 类。
在我的情况下,我有多个变量 X1、X2,它们可能共享也可能不共享特征。变量 X1 可能具有特征 (xa,xb,xc),X2 可能具有 (xc,xd),另一个变量 X3 可能具有 (xe)。是否可以构建一个分类器,允许我同时对 X1、X2 和 X3 进行分类,尽管这些特征是相交的甚至是正交的?
这个问题可以从另一个角度来看:对于某些类,我缺少某些特征中的所有数据。考虑下表:
类 = {C1,C2}。
特征 = X = {X1,X2,X3}, X1={A,B}, X2={1,2}, X3={Y,N}
C1类:
X1 X2 X3 #observations
A 1 ? 50
A 2 ? 20
B 1 ? 20
B 2 ? 10
C2类:
X1 X2 X3 #observations
A 1 Y 20
A 1 N 0
A 2 Y 20
A 2 N 10
B 1 Y 10
B 1 N 20
B 1 Y 10
B 1 N 10
如您所见,X3 功能对 C1 类没有任何影响。在分类 C1 时,没有可用于特征 X3 的数据。我可以制作一个将 X=(A,2,N) 分类为 C1 和 C2 的分类器吗?我将如何计算 C1 类中 X3 缺失数据的条件概率?