2

我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。

我有 2 个属性,A1 和 A2(均为二进制)。类计算为:A1 xor A2。我添加了一些嘈杂的二进制属性。

例如,我们有:

A1   A2   noise | class
0    0     ...  | 0
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 0
 ...       ...  | ...

在聚类中,我们没有类,因此对于随机森林聚类,我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类,并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。

这是我们得到的:

A1   A2   noise | class
0    0     ...  | 1
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 1
       .....
------------------------- 
0    0     ...  | 2
0    0     ...  | 2
1    1     ...  | 2
0    1     ...  | 2
       .....

上半部分是标有类别 1 的原始数据(如上)。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构(真实数据与随机数据)。问题是,没有类的 XOR 什么都没有告诉我们,这里也没有什么可学的。

最后,我的问题:如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据?

4

0 回答 0