r - 为聚类生成数据

翻译自：https://stackoverflow.com/questions/12664645 2012-09-30T20:05:10.660

945 次

我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。

我有 2 个属性，A1 和 A2（均为二进制）。类计算为：A1 xor A2。我添加了一些嘈杂的二进制属性。

例如，我们有：

A1   A2   noise | class
0    0     ...  | 0
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 0
 ...       ...  | ...

在聚类中，我们没有类，因此对于随机森林聚类，我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类，并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。

这是我们得到的：

A1   A2   noise | class
0    0     ...  | 1
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 1
       .....
------------------------- 
0    0     ...  | 2
0    0     ...  | 2
1    1     ...  | 2
0    1     ...  | 2
       .....

上半部分是标有类别 1 的原始数据（如上）。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构（真实数据与随机数据）。问题是，没有类的 XOR 什么都没有告诉我们，这里也没有什么可学的。

最后，我的问题：如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据？

r - 为聚类生成数据

0 回答 0

Related

Reference