问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
395 浏览

r - 如何将数据集拆分为训练和测试并在 R 中合并它们相应的“类”

我正在使用 wisconsin 数据集,它有两个分类列IDsclass. 为了进行分类,我必须从数据框中删除这两列,然后将数据集拆分为训练和测试(80%:20%)。我已经完成了,但现在我想将相应的类合并到拆分数据集。然后我必须将拆分类放入一个新向量中。

例子:

从这里我需要合并与样本对应的类。

0 投票
0 回答
524 浏览

r - R studio Knit 错误“维数不正确”

我在 R studio 中遇到过这个针织问题。
我有一个维度为 (543, 31) 的数据集,我将其拆分为训练并使用以下命令进行测试:

然后我在训练集上应用岭回归并在测试集上预测:

我可以在 R Studio 的控制台窗口中运行它,但是每次我尝试编织到 PDF 时,都会在下面出现此错误。我尝试重新启动 R 工作室并清除工作区,但似乎没有一个工作。

这是我的尺寸:
在此处输入图像描述

0 投票
3 回答
38554 浏览

machine-learning - 在训练和测试数据拆分之前或之后规范化数据?

我想将我的数据分成训练集和测试集,我应该在拆分之前还是之后对数据应用规范化?在构建预测模型时有什么不同吗?

0 投票
1 回答
1400 浏览

python - 随机状态值的变化会改变模型的准确性

在测试我的线性回归模型时,我发现更改random_state参数会train_test_split改变模型的准确性。

详细地说,我的火车测试拆分如下:

我的模型如下:

现在,例如,对于当前场景(其中random_state= 42),测试分数为 0.725。但是,如果我将其更改为 43,则测试分数会下降到 0.7。

我知道这random_state表示测试和训练集中将包含哪些数据集。话虽如此,我想知道,是否有办法获得稳定的结果?

谢谢!

0 投票
4 回答
3373 浏览

python-3.x - 非随机地将数据分成训练和测试

我想将我的数据集分成两部分,75% 用于训练,25% 用于测试。有两个班。而且我有另一个数据集,它只有一个类的一个实例,其余所有实例都属于第二类。所以我不想随机分裂。我想确保,如果一个类只有一个实例,它应该在训练中。任何想法如何做到这一点。我知道我必须选择索引,但我不知道如何。现在,我正在这样做,选择前 75% 作为训练,剩下的作为测试

0 投票
1 回答
441 浏览

python - 虹膜数据集拆分功能未编译?

我正在尝试使用 train_test_split 函数随机拆分 2 个数据集(numpy 数组),但由于某种原因,我的代码没有编译。

错误信息:

0 投票
1 回答
7113 浏览

python - Python:ValueError 太多值无法解包(预期为 2)

我正在尝试通过 GridSearchCV 找到最佳 xgboost 模型,并且作为 cross_validation,我想使用 4 月的目标数据。这是代码:

x_train

y_train

但是我在训练我的模型时遇到了这个错误。

错误

有人可以帮我吗?或者有人可以建议我如何在上个月拆分未洗牌的数据来训练/测试以验证模型?

感谢您的帮助

0 投票
2 回答
802 浏览

python - Python /如何在/训练/测试/拆分之后使用索引删除测试数据中的特定行

我想在 X_test 和 y_test 中删除 MFD 较大的每一行。问题是,我总是从训练/测试/拆分中获得随机混合索引。如果我尝试删除它,我会收到以下错误消息:

IndexError:索引 3779 超出轴 1 的范围,大小为 3488

我不能使用旧索引来删除它,但是我怎样才能获得 MFD > 1 的新索引

感谢您的帮助(=

0 投票
1 回答
406 浏览

r - 训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别?

帮助我了解这两个片段之间的区别

1)

当我尝试合奏方法时

2)

我的问题是在合奏时我做的不同是什么?我是初学者帮助我理解这一点。

0 投票
0 回答
494 浏览

r - 训练和测试数据在 r 中拆分,但不是随机拆分

我想在训练和测试中分割数据,但不是随机的。我希望前 80% 的行应该被视为训练,而其余的行应该被视为测试。

有人可以帮忙吗?