machine-learning - 决策树 - 稀疏数据集

Question

我有非常稀疏的数据集，具有大量属性（约 12 K 特征和 700K 记录）我无法将其放入内存（属性值是二项式，即 True/False），

由于它是稀疏的，我将数据集保存为 (ID , Feature) 格式，因此例如我将有以下记录：
(ID , Feature)
(110 , d_0022)
(110 , d_2393)
(110 , i_2293)
(822 , d_933 )
(822 , p_2003)
....

因此，对于 ID 为 110 的记录，我们将拥有三个具有真值的属性（d_0022 ; 2_2393 ; i_2293），其余的都是假的（属性都是属性“特征”的不同值）

是否有任何可用的软件可以实现一种算法来在这种数据集上训练数据集，所以我不首先制作整个数据集？

（目前我正在使用rapidminer）

score 1 · Accepted Answer

您可以将R的稀疏矩阵（example）或Weka与SparseIstance（甚至BinarySparseInstance）一起使用。如果稀疏矩阵仍然不适合内存，您可以使用Mahout和 Amazon EC2 上的小集群来运行 SVD，减少矩阵的维度，以便它们可以正常处理。

我几乎没有使用 RapidMiner 的经验，但可能它也有一些稀疏矩阵的实现。

1 回答 1