我正在尝试预测传入网络数据包的到达间隔时间。我测量网络数据包的到达间隔时间并以二进制特征的形式表示该数据:xi = 0,1,1,1,0,...如果到达间隔时间小于 a ,则xi =0收支平衡时间,否则为 1。必须将数据映射到两个可能的类C={0,1},其中C=0表示较短的到达间隔时间,1 表示较长的到达间隔时间。因为我想在在线特征中实现分类器,所以只要我观察到特征向量xi=0,1,1,0...,我计算MAP类。由于我没有条件概率和先验概率的先验估计,因此我将它们初始化如下:
p(x=0|c=0)=p(x=1|c=0)=p(x=0|c=1)=p(x=1|c=1)=0.5
p(c=0)=p(c=1)=0.5
对于每个特征向量(x1=m1,x2=m2,...,xn=mn),当我输出一个类C时,我将条件概率和先验概率更新如下:
p(xi=mi|y=c)=a+(1-a)*p(p(xi=mi|c)
p(y=c)=b+(1-b)*p(y=c)
问题是,我总是得到一个有偏见的预测。由于long的到达间隔次数比short少,所以short的后验总是高于long。有什么办法可以改善这一点吗?还是我做错了什么?任何帮助将不胜感激。