问题标签 [k-fold]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
414 浏览

python - 如何在 hmmlearn 中实现 kfold 交叉验证?

hmmlearn教程演示了如何将隐马尔可夫模型拟合到数据集:

是否有内置的方法来进行交叉验证,还是我必须手动完成?

0 投票
0 回答
208 浏览

python - 如何确保我的数据集在类之间均匀分布,即它是分层的,大小和类分布应该是平衡的?

我做了一个简单的 K 折交叉验证代码,现在我想做一些修改,使其在大小和类分布上平衡?

PS:我需要从头开始使用python代码,sklearn是不允许的。

结果我得到了这个:[[4, 4, 3, 3, 4], [1, 1, 2, 2, 1]]

我希望是例如,[[1,3,2,4,4],[1,2,2,4,3]]

0 投票
1 回答
738 浏览

python - 如何进行 groupKfold 验证并获得平衡的数据?

我根据组值在训练和测试集中拆分一些数据。我怎样才能做到这一点才能获得平衡的数据?

为了解决二进制分类任务,我有 100 个样本,每个样本都有唯一的 ID、主题和标签(1 或 0)。

为了避免在人识别任务中退化,我需要同一主题不能同时在训练和测试集中。

主题的数量少于样本的数量(57),一些主题只出现在一个样本中,而另一些则出现在许多具有相同或不同标签的样本中。

我可以使用 sklearn 中的 gropKfold 简单地做到这一点,但我希望我的数据是平衡的(或至少接近平衡)

我尝试使用以下代码:

其中 idx、主题和标签分别是 ID、主题和标签的列表。

但数据非常不平衡。

我也试过这个:

但这不是 Kfold,所以我不能保证相同的样本只保留一个折叠。

0 投票
1 回答
31 浏览

python - 进行交叉验证的方法

假设我有 fold1、fold2、fold3。

我用modelA训练了fold1、fold2、fold3。

A)模型A(折叠1)->模型A(折叠2)->模型A(折叠3)

B) modelA(fold1) -> 保存的权重 modelA(fold1) -> modelA(fold2)-> 保存的权重 modelA(fold2) -> modelA(fold3)-> 保存的权重 modelA(fold3) -> 集成 3 权重

哪种方法是进行 k 折交叉验证的正确方法,为什么?

0 投票
1 回答
241 浏览

apache-spark - Pyspark ML:如何使用 CrossValidator() 获取子模型值

我想使用end库获得cross-validation的(内部)训练准确性:PySparkML

为了获取每个c.v.文件夹的准确度指标,我尝试过:

print(model_cv.subModels)

但是这个方法的结果是空的(None)。

我怎么能得到accuracy每个文件夹的?

0 投票
1 回答
260 浏览

python - 如何创建 k 折交叉验证测试?

我有一个来自污染传感器的数据,我希望对其进行验证。我将它与来自 londonair.org.uk 的数据进行比较以进行比较。我用 X 轴上的传感器数据和 Y 轴上的 Londonair 数据创建了一个简单的线性回归模型,并且能够得到一个简单的模型(以 y=mx + c 的形式)。我的教授要求我使用 k 折交叉验证来验证模型,但我不确定如何。

我不确定要在哪个数据集上执行测试。它应该来自传感器的原始数据,还是应该采用通过回归模型计算的数据?

0 投票
2 回答
217 浏览

r - 根据 k-fold 交叉验证中的 fold 从训练数据中选择样本

我已经根据此处执行了不带包的 k 折交叉验证How to split a data set to do 10-fold cross validation using no packages

我需要从训练数据的每一折中选择 30% 的样本。这是我的功能:

结果将仅显示所选子集的 ID。如何获取 SubInt 的选定 ID 的信息(变量)?

使用rbind是正确的方法吗?因为我需要从 SubInt 进行另一个循环。

0 投票
0 回答
198 浏览

r - 使用插入符号包进行分类的多个评估指标

我正在用caret10 倍 CV 调整 MLP(重复 5 次)。我想在摘要输出中获得 prSummary(F1、Precision、Recall)以及标准准确率和 kappa 分数。

  • 有了caret::defaultSummary()我得到所需的准确度和 Kappa 值,但它缺少 F1、精确度和召回率。
  • 使用prSummary()函数则相反:缺少 Kappa 和 Accuracy。
  • 有没有办法同时获得两个指标?我提供了一个带有 iris 数据集的玩具示例,并删除了一个类以获得二元分类问题。

seedsQ2)附带说明:为了交叉验证的可重复性,是否建议像我一样使用该参数?因为使用随机抽样种子,我的代码可能仍然无法重现,对吧?

0 投票
1 回答
203 浏览

scala - 在 k 折验证中的每次迭代/折中获取单个模型分数

我正在尝试在 scala 中执行 kfold 验证。我正在使用随机森林模型和 rmse 作为评估器。我只能获得最佳模型的 rmse 值。

代码:

我想在验证阶段打印各个 rmse 值。

例如:

请让我知道如何在 Scala 中执行此操作。谢谢!

0 投票
0 回答
636 浏览

python - 使用随机森林应用分层 10 折交叉验证

我是machine learning. 我有dataset没有标准化,但我会StandardScaler在过程中使用。我有多类(1、2、...、10 类)

我想知道如何应用 10 折交叉验证而不是 train_test_split。

谁能帮我?谢谢