0

我正在尝试评估我创建的模型。该模型在输出中为我提供了一个 id 列表及其对应的错误构造(一个分数),并且 id 根据这个分数进行排序。假设分数越高,id 越可疑。

例子:

ids: t4, c1, s3, d5, a2, ...
score: 18, 15, 13, 5, 2, ...

另外,我还有另一个列表,其中包含真正的可疑 ​​ID。

suspicious: c1,d5

我的目标是能够说我的可疑列表中的 x% 的 id 在分数列表中位于前 y%。

请问有什么想法吗?和火花的实施将是你的慷慨!

4

1 回答 1

0

这是我所做的,使用熊猫数据框:

  • 我创建了一个包含所有数据的数据框 df,并将可疑数据加载到一个系列中。
  • 在 df 中添加了另一列,我将其命名为 label。记录的标签基于凋零 id 是否存在可疑
  • 使用这个最终的数据框(id、score、label),我能够根据标签进行计数,并且能够拥有诸如问题中的陈述。
于 2017-08-18T23:54:04.687 回答