1

我想对 LOF 进行测试,展示它如何很好地管理数据集的密集稀疏问题。在 ELKI 数据生成器的教程中,我展示了如何使用 4 个集群从这样的 xml 文件制作数据集:

<dataset random-seed="1" test-model="1">
<cluster name="Dense" size="290">
<normal mean="0.5" stddev="0.2"/>
<normal mean="0.5" stddev="0.2"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Sparse" size="100">
<normal mean="0.25" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Middle" size="100">
<normal mean="0.75" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Noise" size="10" density-correction="50">
<uniform min="0" max="1"/>
<uniform min="0" max="1"/>
</cluster>
</dataset>

但是我如何控制异常值。ELKI 工具希望为异常值使用少数标签以显示 ROCAUC 曲线。而我从xml文件中得到的文件只是数据集中的一个点文件。

然后我应该制作一个情节并自己识别异常值并在它们后面加上是或否来说明它们是否是异常值并将少数标签设置为是,是异常值还是有更简单的方法?

4

1 回答 1

1

ELKI 将默认使用最小的类进行评估。(您可以以不同的方式配置评估!)

如果异常值超过数据的 5%,ELKI 将发出警告,因为假设异常值很少见(实际上它们应该远小于 5%)。

因此,在您的数据集上,ELKI 应该默认使用“噪声”作为异常值类。

在您的配置Noise中应该是数据集的 2%,所以它不应该发出警告。它应该开箱即用。

于 2015-07-17T11:49:35.703 回答