-1

我正在做一个项目来使用文本挖掘找出与疾病相关的基因。我为此使用了 1000 篇文章。我得到了大约 129 个基因名称。实际数据集包含大约 1000 个条目。现在我想计算我的方法的精度和召回率。当我进行比较时,在 129 个基因中,发现有 72 个是正确的。所以精度 = 72/129。这是对的吗?现在我该如何计算召回率?请帮忙

4

2 回答 2

0

关于精确度和召回率的维基百科文章可能会有所帮助。定义是:

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

tp真阳性(与疾病相关的基因并且您发现它们)在哪里,fp假阳性(您发现但它们实际上与疾病无关的fn基因)和假阴性(实际上与疾病相关的基因)在哪里?疾病,但您没有找到它们)。

我不太确定您发布的数字代表什么。你知道与疾病真正相关的基因吗?

您很可能已经计算出准确度:

Accuracy = (tp + fp) / (Total Number)
于 2016-03-18T12:39:49.383 回答
0

主要问题是我正在考虑的文章可能不包含所有最初列出的基因名称,因为它的数据集很小。因此,在计算召回率时,我可以将原始基因数据库与文章进行比较,以找出文献中存在多少原始相关基因,而不是将分母视为 1000。即,如果有 1000 个相关基因,我将检查 1000 个我正在考虑的数据集中有多少个。如果是 300,我会将分母设置为 300 而不是 1000。这将提供召回率。

于 2016-03-19T05:12:54.600 回答