我有一组数据。我想从该数据构建一个类分布。根据学习到的分布,我想获得每个数据实例的概率值。基于这个概率值(阈值),我想构建一个分类器来分类特定数据实例是否来自该分布。
在这种情况下,假设我有一个 50x100000 的数据,其中 50 是每个数据实例的维度,实例数为 100000。我正在学习基于此分布的高斯混合模型。
当我尝试获取实例的概率值时,我得到的值非常低。那么在这种情况下,我该如何构建分类器?
我有一组数据。我想从该数据构建一个类分布。根据学习到的分布,我想获得每个数据实例的概率值。基于这个概率值(阈值),我想构建一个分类器来分类特定数据实例是否来自该分布。
在这种情况下,假设我有一个 50x100000 的数据,其中 50 是每个数据实例的维度,实例数为 100000。我正在学习基于此分布的高斯混合模型。
当我尝试获取实例的概率值时,我得到的值非常低。那么在这种情况下,我该如何构建分类器?
我不认为这是有道理的。例如,假设您的数据是一维的,并且假设事实是它是从双峰分布中采样的。但是假设您还没有确定它来自双峰分布并且您适合正态分布。你仍然有最好的拟合,但它可能最适合错误的分布,而事实是没有一个点来自那个分布或任何看起来像它的分布。