我有一个data
包含实际值和一些 NaN 值的数据框。我正在尝试使用随机投影执行局部敏感散列,以将维度减少到 25 个组件,特别是sklearn.random_projection.GaussianRandomProjection
类。但是,当我运行时:
tx = random_projection.GaussianRandomProjection(n_components = 25)
data25 = tx.fit_transform(data)
我明白了Input contains NaN, infinity or a value too large for dtype('float64')
。有解决方法吗?我尝试将所有 NaN 值更改为我的数据集中从未存在的值,例如 -1。在这种情况下,我的输出有多有效?我不是局部敏感散列/随机投影理论背后的专家,因此任何见解也会有所帮助。谢谢。