问题标签 [k-fold]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2199 浏览

python - StratifiedKFold 拆分训练和验证集大小

我正在使用StratifiedKFold,但我不确定kfold.split下面代码中返回的训练和测试大小是多少。假设Print(array.shape)返回(12904, 47),即行数为 12904,列数为 47,那么训练和测试的大小是多少?

0 投票
0 回答
94 浏览

r - 在 for 循环中执行多项式回归时得到“xj[i] 中的错误:只有 0 可能与负下标混合”

我正在尝试使用 for 循环来确定用于回归中每个变量的最佳多项式次数,然后将使用 k 折交叉验证。我收到一个错误“xj[i] 中的错误:只有 0 可能与负下标混合”。我知道这段代码可能不是很“r-ish”,因为我是该语言的新手,所以任何其他提示也会有所帮助。

我希望最终得到存储每个组合以及 MSE 的向量,以便我可以看到哪种组合是最佳的。

0 投票
1 回答
863 浏览

python - 10折交叉验证python

本文中有一个使用迁移学习和 LSTM 的基于深度学习的模型,作者使用了 10 倍交叉验证(如表 3 所示)并取结果的平均值。我熟悉 10 折交叉验证,因为我们需要划分数据并传递给模型,但是在这段代码中(这里)我不知道如何划分数据并传递它。

有两个训练/测试/开发数据集(一个用于情感分析,一个用于情感分析,我们都将其用于迁移学习,但我的重点是情感分析)。原始数据在几个 txt 格式的文件中,在运行模型后,它给出了两个新的 txt 文件,一个用于预测标签,一个用于真实标签。

主文件中有一行代码:

其中“数据”是一类数据(代码),包括测试/训练/开发数据集:我认为我需要在此处传递划分的数据。如果我是对的,我该如何进行分区并执行 10 折交叉验证?

0 投票
2 回答
5489 浏览

python - 10折交叉验证并获得RMSE

我正在尝试使用 scikit learn 中的 KFold 模块将我从对完整数据集执行多重线性回归的 RMSE 与 10 倍交叉验证的 RMSE 进行比较。我发现了一些我试图调整的代码,但我无法让它工作(我怀疑它从一开始就没有工作过。

TIA 寻求帮助!

这是我的线性回归函数

我收到关于 kfold 对象不可迭代的错误

0 投票
1 回答
3905 浏览

python - 为什么我得到“支持的目标类型是:('binary', 'multiclass')。改为'continuous'。” 错误?

我正在编写此代码并不断获得支持的目标类型是:('binary','multiclass')。取而代之的是“连续”。无论我尝试什么,都会出错。您在我的代码中看到问题了吗?

0 投票
1 回答
212 浏览

python-3.x - 在 ScikitLearn 的 GroupKFold 中出现错误消息:ValueError: too many values to unpack (expected 2)

在使用 scikit-learn 中的 GroupKFold 方法时,我收到一条错误消息,鉴于文档,我无法理解。

错误信息是:

该文档指出:

在此处输入图像描述

对于一个可重现的例子:

这会产生以下错误消息:

0 投票
2 回答
3752 浏览

python - 在 Sci-Kit Learn 中拆分数据集以进行 K 折交叉验证

我被分配了一项任务,需要创建一个决策树分类器并使用训练集和 10 折交叉验证来确定准确率。我查看了文档,cross_val_predict因为我相信这是我需要的模块。

我遇到的问题是数据集的拆分。据我所知,在通常情况下,该train_test_split()方法用于将数据集拆分为 2 - traintest。据我了解,对于 K 折验证,您需要将训练集进一步拆分为 K 个部分。

我的问题是:我是否需要在开始时将数据集拆分为traintest

0 投票
0 回答
26 浏览

python - 如何在 Dataframe 中创建一个列,该列根据另一列的值计算 cross_val_score

我创建了一个DataFrame( df_kfolds) 有 2 列:kfolds& Mean_ScorewhereKfolds的值从 3 到 5 不等。我试图计算mean_score从以下派生的每个 kfold 的:

在哪里 :

我知道您可以使用来自另一列的值基于简单的数学计算创建列,但不确定您是否可以使用统计函数。这是我的代码:

抛出此错误:

感谢您对此的任何帮助!

0 投票
4 回答
16725 浏览

scikit-learn - 使用 pytorch 和 sklearn 对 MNIST 数据集进行交叉验证

我是 pytorch 的新手,正在尝试实现前馈神经网络来对 mnist 数据集进行分类。我在尝试使用交叉验证时遇到了一些问题。我的数据具有以下形状: x_train: torch.Size([45000, 784])y_train:torch.Size([45000])

我尝试使用 sklearn 中的 KFold。

kfold =KFold(n_splits=10)

这是我的训练方法的第一部分,我将数据分成折叠:

变量的索引y_train_fold是正确的,它只是: [ 0 1 2 ... 4497 4498 4499],但不是 for x_train_fold,而是[ 4500 4501 4502 ... 44997 44998 44999]. 测试折叠也是如此。

对于第一次迭代,我希望变量x_train_fold是前 4500 张图片,换句话说,有 shape torch.Size([4500, 784]),但它有 shapetorch.Size([40500, 784])

关于如何做到这一点的任何提示?

0 投票
1 回答
62 浏览

scikit-learn - 是否可以在分层KFold 中取回列表?

我想做这样的事情:

接着 :

但是,它不起作用,为什么以及如何绕过该问题?

我的想法是我想在代码的不同部分多次使用相同的拆分...我不知道如何“存储”拆分。