我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。
我有 2 个属性,A1 和 A2(均为二进制)。类计算为:A1 xor A2。我添加了一些嘈杂的二进制属性。
例如,我们有:
A1 A2 noise | class
0 0 ... | 0
0 1 ... | 1
1 0 ... | 1
1 1 ... | 0
... ... | ...
在聚类中,我们没有类,因此对于随机森林聚类,我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类,并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。
这是我们得到的:
A1 A2 noise | class
0 0 ... | 1
0 1 ... | 1
1 0 ... | 1
1 1 ... | 1
.....
-------------------------
0 0 ... | 2
0 0 ... | 2
1 1 ... | 2
0 1 ... | 2
.....
上半部分是标有类别 1 的原始数据(如上)。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构(真实数据与随机数据)。问题是,没有类的 XOR 什么都没有告诉我们,这里也没有什么可学的。
最后,我的问题:如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据?