问题标签 [k-fold]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - StratifiedKFold 拆分训练和验证集大小
我正在使用StratifiedKFold
,但我不确定kfold.split
下面代码中返回的训练和测试大小是多少。假设Print(array.shape)
返回(12904, 47)
,即行数为 12904,列数为 47,那么训练和测试的大小是多少?
r - 在 for 循环中执行多项式回归时得到“xj[i] 中的错误:只有 0 可能与负下标混合”
我正在尝试使用 for 循环来确定用于回归中每个变量的最佳多项式次数,然后将使用 k 折交叉验证。我收到一个错误“xj[i] 中的错误:只有 0 可能与负下标混合”。我知道这段代码可能不是很“r-ish”,因为我是该语言的新手,所以任何其他提示也会有所帮助。
我希望最终得到存储每个组合以及 MSE 的向量,以便我可以看到哪种组合是最佳的。
python - 10折交叉验证python
本文中有一个使用迁移学习和 LSTM 的基于深度学习的模型,作者使用了 10 倍交叉验证(如表 3 所示)并取结果的平均值。我熟悉 10 折交叉验证,因为我们需要划分数据并传递给模型,但是在这段代码中(这里)我不知道如何划分数据并传递它。
有两个训练/测试/开发数据集(一个用于情感分析,一个用于情感分析,我们都将其用于迁移学习,但我的重点是情感分析)。原始数据在几个 txt 格式的文件中,在运行模型后,它给出了两个新的 txt 文件,一个用于预测标签,一个用于真实标签。
主文件中有一行代码:
其中“数据”是一类数据(代码),包括测试/训练/开发数据集:我认为我需要在此处传递划分的数据。如果我是对的,我该如何进行分区并执行 10 折交叉验证?
python - 10折交叉验证并获得RMSE
我正在尝试使用 scikit learn 中的 KFold 模块将我从对完整数据集执行多重线性回归的 RMSE 与 10 倍交叉验证的 RMSE 进行比较。我发现了一些我试图调整的代码,但我无法让它工作(我怀疑它从一开始就没有工作过。
TIA 寻求帮助!
这是我的线性回归函数
我收到关于 kfold 对象不可迭代的错误
python - 为什么我得到“支持的目标类型是:('binary', 'multiclass')。改为'continuous'。” 错误?
我正在编写此代码并不断获得支持的目标类型是:('binary','multiclass')。取而代之的是“连续”。无论我尝试什么,都会出错。您在我的代码中看到问题了吗?
python - 在 Sci-Kit Learn 中拆分数据集以进行 K 折交叉验证
我被分配了一项任务,需要创建一个决策树分类器并使用训练集和 10 折交叉验证来确定准确率。我查看了文档,cross_val_predict
因为我相信这是我需要的模块。
我遇到的问题是数据集的拆分。据我所知,在通常情况下,该train_test_split()
方法用于将数据集拆分为 2 - train和test。据我了解,对于 K 折验证,您需要将训练集进一步拆分为 K 个部分。
我的问题是:我是否需要在开始时将数据集拆分为train和test?
python - 如何在 Dataframe 中创建一个列,该列根据另一列的值计算 cross_val_score
我创建了一个DataFrame
( df_kfolds
) 有 2 列:kfolds
& Mean_Score
whereKfolds
的值从 3 到 5 不等。我试图计算mean_score
从以下派生的每个 kfold 的:
在哪里 :
我知道您可以使用来自另一列的值基于简单的数学计算创建列,但不确定您是否可以使用统计函数。这是我的代码:
抛出此错误:
感谢您对此的任何帮助!
scikit-learn - 使用 pytorch 和 sklearn 对 MNIST 数据集进行交叉验证
我是 pytorch 的新手,正在尝试实现前馈神经网络来对 mnist 数据集进行分类。我在尝试使用交叉验证时遇到了一些问题。我的数据具有以下形状:
x_train
:
torch.Size([45000, 784])
和
y_train
:torch.Size([45000])
我尝试使用 sklearn 中的 KFold。
kfold =KFold(n_splits=10)
这是我的训练方法的第一部分,我将数据分成折叠:
变量的索引y_train_fold
是正确的,它只是:
[ 0 1 2 ... 4497 4498 4499]
,但不是 for x_train_fold
,而是[ 4500 4501 4502 ... 44997 44998 44999]
. 测试折叠也是如此。
对于第一次迭代,我希望变量x_train_fold
是前 4500 张图片,换句话说,有 shape torch.Size([4500, 784])
,但它有 shapetorch.Size([40500, 784])
关于如何做到这一点的任何提示?
scikit-learn - 是否可以在分层KFold 中取回列表?
我想做这样的事情:
接着 :
但是,它不起作用,为什么以及如何绕过该问题?
我的想法是我想在代码的不同部分多次使用相同的拆分...我不知道如何“存储”拆分。