关于隔离林的污染,
如果您正在为正常实例(所有内点)进行训练,则应将污染设为零。如果您不指定此项,则污染将为 0.1(对于版本 0.2)。
以下是显示这一点的简单代码,
1- 导入库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
rng = np.random.RandomState(42)
2- 生成二维数据集
X = 0.3 * rng.randn(1000, 2)
3- 训练 iForest 模型并预测异常值
clf = IsolationForest(random_state=rng, contamination=0)
clf.fit(X)
y_pred_train = clf.predict(X)
4-打印异常数量
print(sum(y_pred_train==-1))
这会给你0个异常。现在,如果您将污染更改为 0.15,程序会从您已经拥有的同一数据集中指定150 个异常(由于RandomState(42)相同)。
[参考]:
1 Liu, Fei Tony, Ting, Kai Ming 和 Zhou, Zhi-Hua。“隔离森林。” 数据挖掘,2008 年。ICDM'08。第八届 IEEE 国际会议
2 Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua。“基于隔离的异常检测。” 从数据中发现知识的 ACM 交易 (TKDD),(2012)