问题标签 [cross-validation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2022 浏览

r - PCA+lm的交叉验证

我是一名化学家,大约一年前,我决定进一步了解化学计量学。

我正在处理这个我不知道如何解决的问题:

我进行了一个实验设计(具有 3 个因子的Doehlert类型),将几种分析物浓度记录为Y。然后我在Y上执行了 PCA ,我使用第一台 PC 上的分数(总方差的 87%)作为线性回归模型的新y,我的实验编码设置为X。

现在我需要在对新的“训练集”执行 PCA之前执行一个留一法交叉验证删除每个对象,然后像以前一样在分数上创建回归模型,预测观察的分数值“测试集”并计算预测的误差,比较预测的分数和测试集中的对象在前一次 PCA 的空间中投影得到的分数。如此重复n次(其中 n 是我的实验设计的点数)。我想知道我怎么能用 R 来做到这一点。

0 投票
1 回答
378 浏览

r - 多维列联表R中的错误率

晚上好,

在处理列联表时,我发现RclassAgreement中的包e1071中的函数非常有用且信息丰富。

它适用于二维。但如果我有 3 个或更多维度,它就不起作用。

我已经查看了几本书、论文和网页,但仍然找不到像 classAgreement() 一样具有超过 2 维的内置函数。

有人知道 R 中可以做到这一点的函数/包吗?

如果它不存在,有人能指出我正确的方向来构建一个在交叉验证中使用 3 维的函数吗?

谢谢你。

0 投票
1 回答
192 浏览

machine-learning - 交叉验证结果不一致

我有一组从受试者执行某些特定认知任务时记录的数据集。数据由 16 个通道和每个通道的多个样本点组成,我想根据正在执行的认知任务对这些数据进行分类(所有内容都已标记)。

问题是我没有大量数据(每个会话大约 60 次试验,每个认知任务 30 次)并且我有 2 个会话。我正在尝试训练一个线性判别分析(LDA)分类器来分类这些数据。分类器稍后将被实时使用,为每个样本数量提供某种形式的输出。

我使用 5 折交叉验证来测量我的分类器的泛化误差。问题是当我多次运行这个 5 折交叉验证时,我得到的结果根本不是恒定的。相反,整体准确度存在显着差异(例如,前 5 次交叉验证可能产生 80% 的平均准确度,第二次产生 65% 的准确度,第三次产生平均 72% 等......)。这是正常的吗?如果不是,可能是什么原因?

0 投票
0 回答
814 浏览

r - R gbm:交叉验证在这个包中是如何工作的?

有人可以提供有关此的工作流程吗?例如,假设我正在做二进制分类,

对于算法的每次迭代:

  1. 随机采样 k*N 行,其中 k 是 bag.fraction,N 是 nrow(dataset)。

  2. 使用这个训练样本构建一个分类器,假设我们在这里使用分类树。

  3. 预测终端节点类标签。

这就是在没有简历的情况下完成提升的方式。如果我想做一个 3-fold CV,我到底应该在哪里应用它?在第 1 步和第 2 步之间还是在第 3 步之后?谢谢!

0 投票
1 回答
9610 浏览

matlab - 如何在matlab中创建留一交叉验证?

我仍然对我的代码感到困惑。我试图在matlab中实现留一交叉验证进行分类。所以在这里。我从训练中取出一个数据成为测试数据。我已经在matlab中编写了代码。但我不确定它是否正确,因为结果是错误的。有人可以帮我纠正吗?非常感谢您。

这是我的代码:

0 投票
2 回答
2274 浏览

r - 随机森林对不平衡数据的回归

我正在使用随机森林的 r 包根据氨基酸序列预测蛋白质对之间的距离,主要兴趣是接近的蛋白质(距离更小)。我的训练数据集由 10k 对蛋白质和它们之间的实际距离组成。然而,很少有蛋白质对(小于 0.2%)之间的距离很小,问题是经过训练的随机森林在预测距离较大的蛋白质之间的距离时变得非常准确,而对于距离较小的蛋白质则非常不利。他们。我尝试对训练数据中距离较远的蛋白质进行下采样,但结果仍然不好。我对紧密的蛋白质(它们之间距离小的那些对)更感兴趣。

0 投票
1 回答
8181 浏览

python - 将 cross_validation.cross_val_score 与 metrics.precision_recall_fscore_support 一起使用

我是 scikits-learn 的新手,我想使用cross_validation.cross_val_scorewithmetrics.precision_recall_fscore_support这样我就可以获得所有相关的交叉验证指标,而不必为了准确性、一次为了精度、一次为了召回和一次为了准确而运行我的交叉验证f1。但是当我尝试这个时,我得到一个 ValueError:

这是错误:

注意,您需要 .14-git 版本才能在cross_validation.cross_val_score.

0 投票
1 回答
3000 浏览

r - ROC 曲线图:0.50 显着性和交叉验证

我有两个使用 pROC 包绘制 ROC 曲线的问题。

A.显着性水平或 P 值是当 ROC 曲线下的真实(总体)面积为 0.5(零假设:面积 = 0.5)时,发现观察到的样本 ROC 曲线下面积的概率。如果 P 很小(P<0.05),则可以得出结论,ROC 曲线下面积与 0.5 显着不同,因此有证据表明实验室测试确实具有区分两组的能力。

因此,我想计算ROC曲线下的某个面积是否与0.50显着不同。我发现使用 pROC 包比较两条 ROC 曲线的代码如下,但不知道如何测试它是否为 0.5 显着。

B.我对我的分类问题进行了 k 折交叉验证。例如,5 折交叉验证将产生 5 条 ROC 曲线。那么如何使用 pROC 包绘制这 5 条 ROC 曲线的平均值(我想要做的是在这个网页上解释但在 Python 中完成:在此处输入链接描述)?另一件事是我们能否获得这条平均 ROC 曲线的置信区间和最佳阈值(类似于下面实现的代码)?

参考:

http://web.expasy.org/pROC/screenshots.html

http://scikit-learn.org/0.13/auto_examples/plot_roc_crossval.html

http://www.talkstats.com/showthread.php/14487-ROC-significance

http://www.medcalc.org/manual/roc-curves.php

0 投票
3 回答
7503 浏览

r - 如何从 R 中的线性模型获得交叉验证的 r 平方?

我在 R 中有一个线性模型。

我想获得样本外 r 平方的估计值。我正在考虑使用某种形式的 k 折交叉验证。

  • R 中的哪些代码采用线性模型拟合并返回交叉验证的 r 平方?
  • 或者是否有其他方法可以使用 R 获得交叉验证的 r-square?
0 投票
1 回答
459 浏览

weka - 交叉验证和单独的“提供的测试集”

执行 10 折交叉验证后,使用单独的“提供的测试集”进行重新评估是否合适?