0

我一直在试图弄清楚如何编写一个函数来根据数据的密度(出现次数/边缘长度)将数据样本组合在一起。但是那里没有很多例子。

输出将给出一个边向量,其中两个:

  1. 通过阈值(可能是 40%?)对具有不同密度的数据进行分组需要多少个 bin 给出了 bin 的数量。

  2. 边的长度取决于相邻数据组是否具有相似的密度。(相似的密度被组合在一起,但如果相邻箱的密度或多或少为 40%,则需要另一个箱)。

所以为了说明我的观点,下面是一个简单的例子:

我的数据值范围从 1 到 10,并且我有 10 个观察值,其中 x=[1,2,3,4,5,5,5,6,6,7];

x 将导致边缘为 [1,5,6,7,8] 的范围,因此有四种状态只是因为 bin 表示不同的密度簇。

只是提到我的实际数据是连续的,任何帮助表示赞赏。

我想到了一个针对大数据样本的初步算法:

  1. 按升序对数据进行排序。

  2. 至少一个组有 10 个元素的组数据

  3. 计算和比较密度以将相似的组合在一起。

我被困在第三点了。我不确定如何有效地将它们分组。我的障碍来自如果密度缓慢增加,但逐渐增加例如密度:1,2,3,4,5,6,7,8,9,10

我在哪里称它为休息并说一个群体的密度与另一个群体不同。

4

0 回答 0