R - 问题:找到非均匀箱的最佳数量以显示一系列数据点。
我有一堆数据点(让我们假设不同手机的价格不同)。我需要将这些手机分为几类(基于价格)。bin 大小(在此示例中是指价格范围)不需要统一(低价类别中可能有很多手机,而长尾类别中可能有很多手机)。
是否有任何有效的算法来找到所需的最佳箱数以及应进入每个类别的数据点数量(在本例中为移动电话)。
这不是标准公式,但想发布,因为它似乎适用于我测试的数据集。
找出所有手机的平均价格。
例如:5 部手机,价格分别为 10、20、40、80、200
平均值为 350/5 = 70
从平均价格中减去最低价格:70 - 10 = 60 -> 将其命名为 N1
从最高价格中减去平均价格:200 - 70 = 130 -> 将其命名为 N2
找到 N2/N1 的比率:130/60:大约 2
这表明在较高价格范围内每 1 个 bin 最好有 2 个较低价格范围的 bin。
因此,例如取 2 个低于 70 的 bin。范围 0 - 35(2 个手机),36 - 70(1 个手机)
1 个高于 70 的 bin:范围 71 - 200(2 个手机)
如您所见,箱的数量和箱大小是合理的最佳选择。