我一直在试图弄清楚如何编写一个函数来根据数据的密度(出现次数/边缘长度)将数据样本组合在一起。但是那里没有很多例子。
输出将给出一个边向量,其中两个:
通过阈值(可能是 40%?)对具有不同密度的数据进行分组需要多少个 bin 给出了 bin 的数量。
边的长度取决于相邻数据组是否具有相似的密度。(相似的密度被组合在一起,但如果相邻箱的密度或多或少为 40%,则需要另一个箱)。
所以为了说明我的观点,下面是一个简单的例子:
我的数据值范围从 1 到 10,并且我有 10 个观察值,其中 x=[1,2,3,4,5,5,5,6,6,7];
x 将导致边缘为 [1,5,6,7,8] 的范围,因此有四种状态只是因为 bin 表示不同的密度簇。
只是提到我的实际数据是连续的,任何帮助表示赞赏。
我想到了一个针对大数据样本的初步算法:
按升序对数据进行排序。
至少一个组有 10 个元素的组数据
计算和比较密度以将相似的组合在一起。
我被困在第三点了。我不确定如何有效地将它们分组。我的障碍来自如果密度缓慢增加,但逐渐增加例如密度:1,2,3,4,5,6,7,8,9,10
我在哪里称它为休息并说一个群体的密度与另一个群体不同。