我试图在我的 1000 多个文档的数据集中找到异常。我正在使用 LIME ML Interpreter 来解释模型(隔离森林)预测。在一个参数“模式”中,我可以在分类和回归之间进行选择。我没有一组已知异常的文档。由于隔离森林是一种无监督学习方法,而分类是一种监督学习,用于将观察结果分类为两个或更多类,我最终使用回归。另一方面,我有结果异常或没有异常。
在这里使用什么是正确的?
最好的问候,艾丽
我试图在我的 1000 多个文档的数据集中找到异常。我正在使用 LIME ML Interpreter 来解释模型(隔离森林)预测。在一个参数“模式”中,我可以在分类和回归之间进行选择。我没有一组已知异常的文档。由于隔离森林是一种无监督学习方法,而分类是一种监督学习,用于将观察结果分类为两个或更多类,我最终使用回归。另一方面,我有结果异常或没有异常。
在这里使用什么是正确的?
最好的问候,艾丽
对我们来说,我们所做的如下:
我们也在尝试寻找更好的选择,而不是构建二级随机森林分类器。
我看到的另一个选择是在 IsoForest 树构建期间保留 10-20% 的数据集。在这个坚持上对模型进行评分并获得异常分数(或平均树深度)并在此基础上构建解释器。然后在对新数据进行评分时,LIME 会将其视为回归问题......我不确定这会如何运作......
不是直接关于 LIME,但 Shapley 值可用于为 IsolationForest 创建类似的解释。看到这个答案。