4

我有一个流形学习/非线性降维问题,我知道对象之间的距离达到某个阈值,超出此范围,我只知道距离是“远”。此外,在某些情况下,某些距离可能会丢失。我正在尝试使用sklearn.manifold以执行查找一维表示的任务。一种自然的表示方式是将“远”距离inf和缺失距离表示为nan

但是,目前scikit-learn似乎不支持naninf中赋予流形学习函数的距离矩阵值sklearn.manifold,因为我得到ValueError: Array contains NaN or infinity.

这有概念上的原因吗?有些方法似乎特别适用于inf,例如非度量 MDS。我也知道这些方法在其他语言中的一些实现能够处理缺失/inf 值。

我没有考虑使用,而是inf将“远”值设置为一个非常大的数字,但我不确定这将如何影响结果。

更新:

我在代码中挖掘sklearn.manifold.MDS._smacof_single()并找到了一段代码和一条评论说"similarities with 0 are considered as missing values"。这是指定缺失值的未记录方式吗?这适用于所有多种功能吗?

4

1 回答 1

0

简短回答:正如您提到的,非度量 MDS 能够处理不完整的相异矩阵。你是对的:将值设置为零允许在使用时被解释为缺失值MDS(metric=False)。它不适用于其他不基于非度量 MDS 的流形学习过程,但可能有类似的(未记录的)方法可用。

关于用高值替换 inf 的问题肯定会塑造你的低维表示。这是否有效,而是一个概念性问题,只有知道 inf 值的来源才能回答。inf 条目是否意味着像“这些数据彼此相距很远”之类的东西,用高值替换是有意义的(就像你的情况一样)。如果它相当缺乏关于差异的知识,我不建议用 inf 替换。如果没有其他解决方案(如非度量 MDS 或矩阵完成),那么我宁愿建议在这种情况下用可测量距离的中位数替换(检查Imputation)。

查看我对 2017 年类似问题的回答。

于 2017-05-09T15:10:28.930 回答