我想为少数注释者找到注释者间协议。注释者为每个主题注释几个类别(共 10 个类别)。
例如,有 3 个注释器、10 个类别和 100 个主题。
我知道http://en.wikipedia.org/wiki/Cohen's_kappa (对于两个注释者)和 http://en.wikipedia.org/wiki/Fleiss%27_kappa(对于两个以上注释者)注释者间协议但我意识到,如果用户为任何主题注释多个类别,它们可能不起作用。
有没有人知道在这种情况下确定注释间协议。
谢谢
我想为少数注释者找到注释者间协议。注释者为每个主题注释几个类别(共 10 个类别)。
例如,有 3 个注释器、10 个类别和 100 个主题。
我知道http://en.wikipedia.org/wiki/Cohen's_kappa (对于两个注释者)和 http://en.wikipedia.org/wiki/Fleiss%27_kappa(对于两个以上注释者)注释者间协议但我意识到,如果用户为任何主题注释多个类别,它们可能不起作用。
有没有人知道在这种情况下确定注释间协议。
谢谢
几年前我不得不这样做。我不记得我到底是怎么做到的(我没有代码了),但我有一个工作示例可以向我的教授报告。我正在处理评论的注释,有 56 个类别和 4 个注释器。
注意:当时我需要一种方法来检测注释者最不同意的地方,以便在每次注释会话之后他们可以专注于他们不同意的原因并制定合理的规则来最大化这个统计数据。它为此目的运作良好
Let's assume A-D are annotators and 1-5 are categories. This is a possible scenario.
A B C D Probability of agreement
1 X X X X 4/4
2 X X X 3/4
3 X X 2/4
4 X 1/4
5
A tags this comment as 1,2,3,4 B->1,2,3, and so forth.
For each category the probability of agreement is calculated.
Which is then divided by the number of unique categories tagged for that particular comment.
Therefore for the example comment, we have 10/16 as annotator's agreement. This is a value between 0 and 1.
如果这对您不起作用,那么 ( http://www.mitpressjournals.org/doi/pdf/10.1162/coli.07-034-R2 ) pg-567,它被 pg-587 案例研究引用。
基于每个标签计算一致性。如果您将其中一个注释器视为黄金标准,则可以计算标签分配的召回率和精度。另一种选择是标签重叠,这将是任何一个注释者分配一个类别的主题的比例,而两者都分配了它(交集而不是联合)。