我有非常稀疏的数据集,具有大量属性(约 12 K 特征和 700K 记录)我无法将其放入内存(属性值是二项式,即 True/False),
由于它是稀疏的,我将数据集保存为 (ID , Feature) 格式,因此例如我将有以下记录:
(ID , Feature)
(110 , d_0022)
(110 , d_2393)
(110 , i_2293)
(822 , d_933 )
(822 , p_2003)
....
因此,对于 ID 为 110 的记录,我们将拥有三个具有真值的属性(d_0022 ; 2_2393 ; i_2293),其余的都是假的(属性都是属性“特征”的不同值)
是否有任何可用的软件可以实现一种算法来在这种数据集上训练数据集,所以我不首先制作整个数据集?
(目前我正在使用rapidminer)