0

我试图在我的 1000 多个文档的数据集中找到异常。我正在使用 LIME ML Interpreter 来解释模型(隔离森林)预测。在一个参数“模式”中,我可以在分类和回归之间进行选择。我没有一组已知异常的文档。由于隔离森林是一种无监督学习方法,而分类是一种监督学习,用于将观察结果分类为两个或更多类,我最终使用回归。另一方面,我有结果异常或没有异常。

在这里使用什么是正确的?

最好的问候,艾丽

4

3 回答 3

1

对我们来说,我们所做的如下:

  1. 使用隔离森林获取异常。
  2. 将 Isolation Forest 返回的 1 和 -1 视为类标签并构建随机森林分类器。
  3. 将此随机森林分类器传递给 LIME 以获得异常点的解释。

我们也在尝试寻找更好的选择,而不是构建二级随机森林分类器。

于 2020-09-17T08:09:21.210 回答
0

我看到的另一个选择是在 IsoForest 树构建期间保留 10-20% 的数据集。在这个坚持上对模型进行评分并获得异常分数(或平均树深度)并在此基础上构建解释器。然后在对新数据进行评分时,LIME 会将其视为回归问题......我不确定这会如何运作......

于 2020-10-05T12:40:38.860 回答
0

不是直接关于 LIME,但 Shapley 值可用于为 IsolationForest 创建类似的解释。看到这个答案

于 2020-09-18T22:36:40.407 回答