当您拥有具有 n 个特征的 m 个一维二进制向量时,我正在研究识别异常向量的最佳方法,例如:
a =[[1, 0, 1, 1, 1, 0, 1],
[0, 0, 0, 1, 1, 1, 0],
[0, 1, 1, 0, 0, 1, 1]]
在我的情况下,n 和 m 在 100 中。我想确定哪些向量是人群中的异常值。我在 SciPy 和 HDBSCAN 等软件包中使用 Mahalanobis Distance 找到了一些信息(请注意,在识别出这些异常值后,我将对它们进行聚类,以查看异常值中是否还有其他模式)。在这两种情况下,示例都是有限的,但我也不知道这是否是与二进制向量一起使用的最佳方法。任何建议和例子或参考将不胜感激。