2

我有一些需要分类的点。鉴于这些点的集合,我需要说明它们最匹配的其他(已知)分布。例如,给定左上角分布中的点,我的算法必须说明它们是否更适合第二、第三或第四分布。(由于方向相似,这里左下角是正确的)

给出的分数 样本分布1 样本分布2 样本分布 3

我有一些机器学习的背景,但我不是专家。我正在考虑使用高斯混合模型,或者可能是隐马尔可夫模型(因为我之前已经将签名分类为这些类似的问题)。

对于使用哪种方法解决此问题,我将不胜感激。作为背景信息,我正在使用 OpenCV 和 Python,所以我很可能不必从头开始实现所选算法,我只需要一个指针来了解哪些算法适用于这个问题。

免责声明:我最初想在 StackExchange 的数学部分发布此内容,但我缺乏发布图像的必要声誉。我觉得如果不显示一些图像就无法清楚地表达我的观点,所以我将其发布在这里。我相信它仍然与计算机视觉和机器学习相关,因为它最终将用于对象识别。

编辑:

我阅读并考虑了下面给出的一些答案,现在想添加一些新信息。我不想将这些分布建模为单个高斯分布的主要原因是,最终我还必须能够区分分布。也就是说,可能有两个不同且独立的分布代表两个不同的对象,然后我的算法应该知道这两个分布中只有一个代表我们感兴趣的对象。

4

3 回答 3

1

我认为这取决于数据的确切来源以及您想对其分布做出什么样的假设。即使从单个高斯分布中也可以很容易地得出上述点,在这种情况下,估计每个参数的参数,然后选择最接近的匹配非常简单。

或者,您可以选择判别选项,即计算您认为可能有助于确定一组点所属的类别并使用 SVM 或类似方法进行分类的任何统计数据。这可以被视为将这些样本(2d 点集)嵌入到更高维空间中以获得单个向量。

此外,如果数据实际上像本例中一样简单,您可以只进行主成分分析并通过第一个特征向量进行匹配。

于 2012-08-20T14:52:53.877 回答
1

您应该只将分布拟合到数据,确定每个的 chi^2 偏差,查看 F-Test。参见例如这些关于模型拟合等的注释

于 2012-08-20T15:05:19.097 回答
1

您可能还需要考虑非参数技术(例如,对每个新数据集进行多元核密度估计),以便比较估计分布的统计数据或距离。在 Python中是SciPy.Statsstats.kde中的一个实现。

于 2012-08-21T15:39:39.113 回答