问题标签 [precision-recall]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

393 问题

0 投票

0 回答

279 浏览

weka - 如何使用 weka 测量关联规则的精度和召回率

如何使用 Weka 测量 Apriori 生成的准确率和召回率规则？

2016-02-08T10:38:10.920

0 投票

1 回答

2417 浏览

python-2.7 - 如何在 python scikit-learn 中优化精确召回曲线而不是 AUC-ROC 曲线？

我在问一个后续问题，正如我之前的帖子所建议的那样——良好的 ROC 曲线，但精度召回曲线很差。我只使用 Python scikit-learn 的默认设置。似乎优化是在 AUC-ROC 上，但我对优化精确召回更感兴趣。以下是我的代码。

我在哪里以及如何插入 python 代码来更改设置，以便优化精确召回？

python-2.7 machine-learning scikit-learn roc precision-recall

2016-02-28T23:28:36.477

0 投票

1 回答

6844 浏览

python-2.7 - 如何在 python scikit-learn 中更改精度和召回的阈值？

我听说有人说您可以调整阈值以调整精度和召回之间的权衡，但我找不到如何做到这一点的实际示例。

我的代码：

我尝试更换线路"y_test_predictions = classifierUsed2.predict(X_test)" with "y_test_predictions = classifierUsed2.predict(X_test) > 0.8"，"y_test_predictions = classifierUsed2.predict(X_test) > 0.01"但没有任何变化。

python-2.7 machine-learning scikit-learn threshold precision-recall

2016-02-29T04:36:21.010

0 投票

1 回答

157 浏览

machine-learning - 如何解释用极好到完美的结果代替过采样？

我有非常不平衡的数据 (100:1)，其中 1 部分是我感兴趣的（少数）类。我听说过采样（以及其他技术）是一种“处理”不平衡数据的方法。所以我所做的是通过将替换重新采样到一定比例（例如，2:1）来对少数类进行过采样。

然后我将这个新形成的（重新）样本分成训练和测试集，性能从 0.7、0.4、0.5 的精确率、召回率、F1 大幅提高到 0.97、0.97、0.97。

我做错了什么，因为它看起来好得令人难以置信吗？我应该保留测试集的原始分布，而只对训练集中的少数类进行过采样吗？

machine-learning resampling precision-recall

2016-03-01T02:36:21.200

0 投票

0 回答

870 浏览

python - 在 scikit-learn 中使用交叉验证时计算平均精确召回曲线

我正在尝试使用以下方式绘制平均图：

计算所有折叠的精确召回曲线。
计算平均精确召回曲线。我不知道该怎么做，因为不同折叠的尺寸不同。
绘制曲线，这是在第二步中计算的。

PS 解决方案在 scikit-learn 中使用交叉验证时绘制 Precision-Recall 曲线不合适，因为如果我计算所有预测的平均值，然后计算 Precision-Recall 曲线，我将得到 AUC = 1.0。这是错误的。

我想得到这样的东西：

python machine-learning scikit-learn cross-validation precision-recall

2016-03-03T12:52:38.193

0 投票

1 回答

35 浏览

apache-spark - SPARK LR binaryclass，我无法区分整体精度和precisionbylabels之间的精度

我有一个 LR 模型，并在 testData 上对其进行测试。现在我应该计算结果的精度。

我可以得到精度：

并且

从 spark MLLIB 中，第一个精度被定义为整体统计。

但这也令人困惑，精度和标签精度之间有什么区别？（精度定义为 TRUE 预测率）。

apache-spark linear-regression precision-recall

2016-03-07T08:00:08.540

0 投票

2 回答

404 浏览

machine-learning - 计算文本挖掘结果的精度和召回率

我正在做一个项目来使用文本挖掘找出与疾病相关的基因。我为此使用了 1000 篇文章。我得到了大约 129 个基因名称。实际数据集包含大约 1000 个条目。现在我想计算我的方法的精度和召回率。当我进行比较时，在 129 个基因中，发现有 72 个是正确的。所以精度 = 72/129。这是对的吗？现在我该如何计算召回率？请帮忙

machine-learning classification precision-recall

2016-03-16T11:31:03.403

0 投票

0 回答

78 浏览

machine-learning - 用隐式评分衡量推荐引擎的有效性

假设一家公司拥有一个包含推荐引擎的电子商务平台。当用户将项目添加到他/她的购物车时，他们会收到用户可能还想添加的其他项目的建议。评分量表是隐含的和二元的——用户是否添加了项目（0= no，1= yes）。该公司已经训练了几种不同的模型，并希望了解它们的表现。

公司可以使用哪些指标？在这种情况下，他们将如何计算这些指标？

machine-learning recommendation-engine precision-recall

2016-03-21T18:05:32.070

0 投票

0 回答

270 浏览

cluster-analysis - 在恢复集群的层次结构上使用精确召回指标

背景：我们是两名学生，打算使用分层凝聚聚类算法写一篇关于逆向工程命名空间的论文。我们对我们想要尝试的算法有多种链接方法和其他调整。我们将在流行的 GitHub 存储库上运行该算法，并将创建的集群与最初存在的命名空间进行比较。我们的工作将紧跟本文的工作。在论文中，作者提到使用“精确召回指标”来衡量聚类算法的准确性。然而，更仔细地观察指标及其起源，它似乎专用于扁平（非分层）集群。

问题： 有没有办法使用精确召回指标来衡量恢复集群层次结构的准确性？如果没有，还有哪些其他选择？

cluster-analysis hierarchical-clustering precision-recall

2016-04-05T10:51:06.167

0 投票

1 回答

6979 浏览

machine-learning - 如何计算 BCubed 精度和召回率

根据此发布的页面 BCubed 精度和召回率，因此 F1-Measure 计算是评估聚类性能的最佳技术。参见Amigó、Enrique 等人。“基于形式约束的外在聚类评估指标的比较。” 信息检索 12.4 (2009): 461-486。

它显示了 BCubed 计算，如下图所示

所以据我了解，我们计算每个项目的精度和召回率，然后取它们的总和的平均值？

但是，我的理解与他们给定的评估不符，如下图所示

根据上图集群同质性示例 - 左侧，我计算 BCubed 的精度如下但不匹配

然而，这与他们在图像中的结果不匹配0.59

项目的 BCubed 精度是其集群中具有项目类别（包括其自身）的项目的比例。整体 BCubed 精度是分布中所有项目的平均精度。由于平均值是针对项目计算的，因此无需根据集群或类别的大小应用任何权重。BCubed 召回是类似的，将“cluster”替换为“category”。

machine-learning cluster-analysis data-mining precision-recall

2016-04-06T10:29:05.660

1 2 3 4 5 6 7 8 9 10

问题标签 [precision-recall]

Reference