我有 3 个类别,每个类别由 3 个注释者评分。在 52% 的案例中,3 个注释者同意相同的类别,43% 的两个注释者同意一个类别,并且只有 5% 的情况下,每个注释者选择了不同的类别。
我计算了 fleiss 的 kappa 或 krippendorff,但 krippendorff 的值比 fleiss 低得多,它是0.032而我的 fleiss 是0.49。
是不是协议太低了,尤其是使用krippendorff?
我有 3 个类别,每个类别由 3 个注释者评分。在 52% 的案例中,3 个注释者同意相同的类别,43% 的两个注释者同意一个类别,并且只有 5% 的情况下,每个注释者选择了不同的类别。
我计算了 fleiss 的 kappa 或 krippendorff,但 krippendorff 的值比 fleiss 低得多,它是0.032而我的 fleiss 是0.49。
是不是协议太低了,尤其是使用krippendorff?
Fleiß 和 Krippendorff 实现期望输入数据采用特定格式(行、列)!
Fleiss(主题,n_categories)
Krippendorff(评估员,科目)
从(主题、评估者)到达那里
对于 Fleiss,使用来自 statsmodels fleiss 的 aggregate_raters() 函数
对于 Krippendorff 转置数组
如果使用正确,这些函数将产生非常相似的值。如果不确定 Krippendorff 通过传递适当的参数“知道”它正在处理哪种规模(标称、序数……等)。
另请参阅更长的答案: