machine-learning - 计算文本挖掘结果的精度和召回率

Question

我正在做一个项目来使用文本挖掘找出与疾病相关的基因。我为此使用了 1000 篇文章。我得到了大约 129 个基因名称。实际数据集包含大约 1000 个条目。现在我想计算我的方法的精度和召回率。当我进行比较时，在 129 个基因中，发现有 72 个是正确的。所以精度 = 72/129。这是对的吗？现在我该如何计算召回率？请帮忙

score 0 · Accepted Answer

关于精确度和召回率的维基百科文章可能会有所帮助。定义是：

Precision: tp / (tp+fp)
Recall: tp / (tp + fn)

tp真阳性（与疾病相关的基因并且您发现它们）在哪里，fp假阳性（您发现但它们实际上与疾病无关的fn基因）和假阴性（实际上与疾病相关的基因）在哪里？疾病，但您没有找到它们）。

我不太确定您发布的数字代表什么。你知道与疾病真正相关的基因吗？

您很可能已经计算出准确度：

Accuracy = (tp + fp) / (Total Number)

score 0 · Accepted Answer

主要问题是我正在考虑的文章可能不包含所有最初列出的基因名称，因为它的数据集很小。因此，在计算召回率时，我可以将原始基因数据库与文章进行比较，以找出文献中存在多少原始相关基因，而不是将分母视为 1000。即，如果有 1000 个相关基因，我将检查 1000 个我正在考虑的数据集中有多少个。如果是 300，我会将分母设置为 300 而不是 1000。这将提供召回率。

machine-learning - 计算文本挖掘结果的精度和召回率

2 回答 2

Related

Reference