algorithm - 如何根据每个 bin 的密度确定 bin 的数量和边长。（垃圾箱很可能不统一。）

翻译自：https://stackoverflow.com/questions/19451649 2013-10-18T14:03:34.477

201 次

0

我一直在试图弄清楚如何编写一个函数来根据数据的密度（出现次数/边缘长度）将数据样本组合在一起。但是那里没有很多例子。

输出将给出一个边向量，其中两个：

通过阈值（可能是 40%？）对具有不同密度的数据进行分组需要多少个 bin 给出了 bin 的数量。
边的长度取决于相邻数据组是否具有相似的密度。（相似的密度被组合在一起，但如果相邻箱的密度或多或少为 40%，则需要另一个箱）。

所以为了说明我的观点，下面是一个简单的例子：

我的数据值范围从 1 到 10，并且我有 10 个观察值，其中 x=[1,2,3,4,5,5,5,6,6,7];

x 将导致边缘为 [1,5,6,7,8] 的范围，因此有四种状态只是因为 bin 表示不同的密度簇。

只是提到我的实际数据是连续的，任何帮助表示赞赏。

我想到了一个针对大数据样本的初步算法：

按升序对数据进行排序。
至少一个组有 10 个元素的组数据
计算和比较密度以将相似的组合在一起。

我被困在第三点了。我不确定如何有效地将它们分组。我的障碍来自如果密度缓慢增加，但逐渐增加例如密度：1,2,3,4,5,6,7,8,9,10

我在哪里称它为休息并说一个群体的密度与另一个群体不同。

0 回答 0