问题标签 [k-fold]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

237 问题

0 投票

0 回答

414 浏览

python - 如何在 hmmlearn 中实现 kfold 交叉验证？

hmmlearn教程演示了如何将隐马尔可夫模型拟合到数据集：

是否有内置的方法来进行交叉验证，还是我必须手动完成？

2017-06-21T05:58:33.977

0 投票

0 回答

208 浏览

python - 如何确保我的数据集在类之间均匀分布，即它是分层的，大小和类分布应该是平衡的？

我做了一个简单的 K 折交叉验证代码，现在我想做一些修改，使其在大小和类分布上平衡？

PS：我需要从头开始使用python代码，sklearn是不允许的。

结果我得到了这个：[[4, 4, 3, 3, 4], [1, 1, 2, 2, 1]]。

我希望是例如，[[1,3,2,4,4],[1,2,2,4,3]]

python cross-validation k-fold

2019-06-27T16:12:03.260

0 投票

1 回答

738 浏览

python - 如何进行 groupKfold 验证并获得平衡的数据？

我根据组值在训练和测试集中拆分一些数据。我怎样才能做到这一点才能获得平衡的数据？

为了解决二进制分类任务，我有 100 个样本，每个样本都有唯一的 ID、主题和标签（1 或 0）。

为了避免在人识别任务中退化，我需要同一主题不能同时在训练和测试集中。

主题的数量少于样本的数量（57），一些主题只出现在一个样本中，而另一些则出现在许多具有相同或不同标签的样本中。

我可以使用 sklearn 中的 gropKfold 简单地做到这一点，但我希望我的数据是平衡的（或至少接近平衡）

我尝试使用以下代码：

其中 idx、主题和标签分别是 ID、主题和标签的列表。

但数据非常不平衡。

我也试过这个：

但这不是 Kfold，所以我不能保证相同的样本只保留一个折叠。

python pandas machine-learning scikit-learn k-fold

2019-06-27T16:18:58.793

0 投票

1 回答

31 浏览

python - 进行交叉验证的方法

假设我有 fold1、fold2、fold3。

我用modelA训练了fold1、fold2、fold3。

A）模型A（折叠1）->模型A（折叠2）->模型A（折叠3）

B) modelA(fold1) -> 保存的权重 modelA(fold1) -> modelA(fold2)-> 保存的权重 modelA(fold2) -> modelA(fold3)-> 保存的权重 modelA(fold3) -> 集成 3 权重

哪种方法是进行 k 折交叉验证的正确方法，为什么？

python cross-validation k-fold

user11240811

2019-06-30T14:14:46.197

0 投票

1 回答

241 浏览

apache-spark - Pyspark ML：如何使用 CrossValidator() 获取子模型值

我想使用end库获得cross-validation的（内部）训练准确性：PySparkML

为了获取每个c.v.文件夹的准确度指标，我尝试过：

print(model_cv.subModels)

但是这个方法的结果是空的（None）。

我怎么能得到accuracy每个文件夹的？

apache-spark pyspark k-fold

2019-07-12T22:46:58.427

0 投票

1 回答

260 浏览

python - 如何创建 k 折交叉验证测试？

我有一个来自污染传感器的数据，我希望对其进行验证。我将它与来自 londonair.org.uk 的数据进行比较以进行比较。我用 X 轴上的传感器数据和 Y 轴上的 Londonair 数据创建了一个简单的线性回归模型，并且能够得到一个简单的模型（以 y=mx + c 的形式）。我的教授要求我使用 k 折交叉验证来验证模型，但我不确定如何。

我不确定要在哪个数据集上执行测试。它应该来自传感器的原始数据，还是应该采用通过回归模型计算的数据？

python machine-learning cross-validation k-fold

2019-07-13T18:47:03.253

0 投票

2 回答

217 浏览

r - 根据 k-fold 交叉验证中的 fold 从训练数据中选择样本

我已经根据此处执行了不带包的 k 折交叉验证How to split a data set to do 10-fold cross validation using no packages

我需要从训练数据的每一折中选择 30% 的样本。这是我的功能：

结果将仅显示所选子集的 ID。如何获取 SubInt 的选定 ID 的信息（变量）？

使用rbind是正确的方法吗？因为我需要从 SubInt 进行另一个循环。

r k-fold

2019-07-17T22:17:35.393

0 投票

0 回答

198 浏览

r - 使用插入符号包进行分类的多个评估指标

我正在用caret10 倍 CV 调整 MLP（重复 5 次）。我想在摘要输出中获得 prSummary（F1、Precision、Recall）以及标准准确率和 kappa 分数。

有了caret::defaultSummary()我得到所需的准确度和 Kappa 值，但它缺少 F1、精确度和召回率。
使用prSummary()函数则相反：缺少 Kappa 和 Accuracy。
有没有办法同时获得两个指标？我提供了一个带有 iris 数据集的玩具示例，并删除了一个类以获得二元分类问题。

seedsQ2）附带说明：为了交叉验证的可重复性，是否建议像我一样使用该参数？因为使用随机抽样种子，我的代码可能仍然无法重现，对吧？

r machine-learning cross-validation r-caret k-fold

2019-07-22T12:26:30.633

0 投票

1 回答

203 浏览

scala - 在 k 折验证中的每次迭代/折中获取单个模型分数

我正在尝试在 scala 中执行 kfold 验证。我正在使用随机森林模型和 rmse 作为评估器。我只能获得最佳模型的 rmse 值。

代码：

我想在验证阶段打印各个 rmse 值。

例如：

请让我知道如何在 Scala 中执行此操作。谢谢！

scala cross-validation k-fold

2019-07-31T08:19:40.207

0 投票

0 回答

636 浏览

python - 使用随机森林应用分层 10 折交叉验证

我是machine learning. 我有dataset没有标准化，但我会StandardScaler在过程中使用。我有多类（1、2、...、10 类）

我想知道如何应用 10 折交叉验证而不是 train_test_split。

谁能帮我？谢谢

python machine-learning random-forest cross-validation k-fold

2019-07-31T14:52:58.287

1 2 3 4 5 6 7 8 9 10

问题标签 [k-fold]

Reference