问题标签 [kappa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中关于ROC曲线和阈值的问题
我有一些关于海龟在不同温度下发生的数据,我使用 glm() 来计算每个温度下发生的预测概率。然后我绘制 ROC 曲线和最大 kappa。最大卡帕是什么意思?最大 kappa 图的 x 轴是什么意思?这两个数字之间有什么关系吗?
python - R中的“irr”包计算的加权Kappa是否错误?
我发现irr
包有 2 个用于计算weighted kappa
.
请告诉我这两个错误是否真的存在,或者我误解了一些东西。
您可以使用以下示例复制错误。
第一个错误:需要更正混淆矩阵中的标签类型。
我有 2 对疾病程度分数(从 0 到 100,0 表示健康,100 表示极度不适)。
在label_test.csv
(您可以将数据复制并粘贴到磁盘中以进行以下测试):
在pred_test.csv
:
在script_r.R
:
当我Python
用来计算kappa
andweighted_kappa
时,在script_python.py
:
我们可以发现,kappa
计算的 byR
和Python
是相同的,但是weighted_kappa
fromR
远低于weighted_kappa
in sklearn
from Python
。哪个是错的?经过2天的研究,我发现weighted_kappa
from irr
package inR
是错误的。详情如下。
在调试过程中,我们会发现from中的混淆矩阵irr
为R
:
我们可以发现顺序是错误的。在 Python 中,标签的顺序应该从 更改[0, 1, 14, 3, 4, 53, 54, 6]
为。[0, 1, 3, 4, 6, 14, 53, 54]
似乎该irr
包使用了基于字符串的排序方法而不是基于整数的排序方法,它将14
放在3
. 这个错误可以而且应该很容易地纠正。
第二个错误:R 中的混淆矩阵不完整
在我的pred_test.csv
andlabel_test.csv
中,这些值不能涵盖从 0 到 100 的所有可能值。因此 from 中的默认混淆矩阵irr
会R
错过那些未出现在数据中的值。这应该是固定的。
让我们看另一个例子。
在pred_test.csv
中,让我们将标签从 更改54
为99
。然后,我们一次script_r.R
又一次地跑script_python.py
。结果是:
我们可以发现weighted_kappa
from irr
inR
完全没有变化。但是weighted_kappa
从sklearn
inPython
减少到0.83
to 0.59
。所以我们知道irr
又犯了一个错误。
原因是sklearn
可以让我们将 传递full labels
给混淆矩阵,使混淆矩阵的形状为 100 * 100,但是在 中irr
,混淆矩阵的标签是根据 和 的唯一值计算的label
,pred
这会错过很多其他的可能的值。53
这个错误会给和这里分配相同的权重99
。所以最好在irr
package 中提供一个选项,让客户提供他们在fromlabels
中所做的那样的客户。sklearn
Python
spss - SPSS 计算 Fleiss Multirater Kappa 而不是 Cronbach Alpha
我很难在度量的分量表上计算 Cronbach 的 Alpha。分量表均为李克特评分,其中变量已设置为具有 7 个(0 到 6)值的有序字符串变量。当我使用分析>规模>可靠性并将所有相关子量表放入评级时,将模型设置为 Alpha 并计算我得到 Kappa 输出而不是 Alpha。谁能告诉我我做错了什么?谢谢!
r - r 中 Light 的 kappa 的自举置信区间
目标:如何计算 r 中 Light 的 kappa 的引导置信区间?
问题:虽然我已成功提取统计信息,但我尝试了以下代码,但不确定我哪里出错了......
以下是数据集的示例:
这是我用来计算统计数据和 95% CI 的代码:
在开始 res 的行之后,我收到以下错误: if ((sum(dim1[i] == dimi1) == 1) & (sum(dim2[j] == dimi2) == 中的错误:缺少值 where TRUE /FALSE 需要
r - 如何在 Kappa 系数计算中考虑缺失数据?
我正在计算一个生物学问题的评分者间协议。基本上,6 个读者在 60 个科目上进行评估,每个科目有 2 个可能性分类量表。我在 R 上使用 kappam.fleiss 函数来做到这一点。
我的问题是:如何考虑丢失的数据?如果我将“NA”放在我的数据库中,我担心 NA 会被解释为分类解释的新条目。因此会与异常的 kappa 值相关联。
非常感谢。
托马斯
r - 如何在 R 中计算 Cohen 的 Kappa 和 PABAK?
我想计算两个评估者对具有两个或多个类别的变量的评估者间一致性。但是,我假设会有一个普遍性问题(即某些类别可能比其他类别更频繁地出现在数据中)。因此,我也有兴趣获得患病率调整偏差调整 kappa (PABAK)。据我所见,{IRR} 包不提供此选项,但 {epiR} 的 epi.kappa 函数提供此选项。但是,我更喜欢使用 {IRR},因为我想获得 Cohen 的 Kappa(epiR 似乎基于 Fleiss 的 Kappa)。有没有其他方法可以在 R 中获得 Cohen 的 Kappa 和 PABAK?
非常感谢!
parallel-processing - model_queue_size 是做什么的?
一般问题:使用 scikit-optimize 进行黑盒优化。在文档中找不到 model_queue_size 的作用。我正在做 ask-tell 因为我可以并行化 y 的计算,如示例中所述。因此,进行一些分析,看起来 opt.tell() 调用在 model_queue_size 设置较小时运行得更快。这就是 model_queue_size 所做的 - 限制 opt.tell() 调用中使用的样本数量?第二个问题,使用 Optimizier - ask-tell 方法时如何设置 kappa?
谢谢