0

我有 3 个类别,每个类别由 3 个注释者评分。在 52% 的案例中,3 个注释者同意相同的类别,43% 的两个注释者同意一个类别,并且只有 5% 的情况下,每个注释者选择了不同的类别。

我计算了 fleiss 的 kappa 或 krippendorff,但 krippendorff 的值比 fleiss 低得多,它是0.032而我的 fleiss 是0.49

是不是协议太低了,尤其是使用krippendorff?

4

1 回答 1

0

Fleiß 和 Krippendorff 实现期望输入数据采用特定格式(行、列)!

Fleiss(主题,n_categories)

Krippendorff(评估员,科目)

从(主题、评估者)到达那里

对于 Fleiss,使用来自 statsmodels fleiss 的 aggregate_raters() 函数

对于 Krippendorff 转置数组

如果使用正确,这些函数将产生非常相似的值。如果不确定 Krippendorff 通过传递适当的参数“知道”它正在处理哪种规模(标称、序数……等)。

另请参阅更长的答案:

多评估者数据的评估者间可靠性计算

fleiss kappa 是一个可靠的注释者间协议衡量标准吗?以下结果让我感到困惑,使用它时是否有任何涉及的假设?

于 2021-11-26T16:56:51.893 回答