“train-test-split”的相关标签问题

0 投票

1 回答

3379 浏览

python - 如何解决“y 中人口最少的班级只有一个成员”Scikit 学习

我正在使用过去的数据集创建一个程序来预测任何工作的员工薪水。我收到错误“警告：y 中人口最少的类只有 1 个成员，太少了。任何类中的最小成员数不能小于 n_splits=5。”

这是我尝试拆分并收到错误的地方。我对机器学习很陌生，所以如果有人能指导我如何解决这个问题，我将不胜感激。

2019-07-11T18:07:42.563

0 投票

2 回答

1362 浏览

python - 为什么 GridSearchCV 方法的准确性低于标准方法？

我使用 train_test_split ( random_state = 0) 和没有任何参数调整的决策树来建模我的数据，我运行它大约 50 次以达到最佳精度。

在第二步中，我决定使用 GridSearchCV 方法来设置树参数。

我在第一种方法中的最佳准确性比 GridSearchCV 方法好得多。

为什么会这样？

你知道以最准确的方式获得最好的树的最佳方法吗？

python decision-tree grid-search hyperparameters train-test-split

2019-07-12T08:39:27.070

0 投票

1 回答

637 浏览

python - 来自 train_test 拆分输出的 y_test 值

我已经完成了测试火车拆分 & 现在我正在尝试进行比较 & 将预测和实际之间的差异作为一个列表并将其发送到 excel 中。我正在使用附图中所示的功能完成所有这些操作（内置功能需要满足我的要求）。为了完成我的任务，我需要 y_test 作为值，但 y_test 似乎有更多信息（如图所示）。如何仅获取 y_test 的值（蓝色框）？

编辑按照建议，添加代码。

我的 y_all 是数据框中的一列。也添加该数据框的一小段。

python pandas scikit-learn train-test-split

2019-07-17T11:55:56.873

0 投票

2 回答

873 浏览

python - 如何将数据拆分为训练和测试，记住熊猫中的 groupby 列？

我想以 20:80 的比例将数据集拆分为测试和训练数据集。但是，在拆分时，我不想以 1 S_Id 值在训练中的数据点很少而在测试中的其他数据点的方式进行拆分。

我有一个数据集：

我想整齐地拆分为：火车：

测试：

所有相同的 S_Id 必须在一组中。可以通过简单的'groupby'来完成吗？

谢谢您的帮助！

python pandas train-test-split

2019-07-19T19:30:20.347

0 投票

3 回答

601 浏览

python - 为分类问题拆分数据集的正确程序是什么？

我是机器学习和深度学习的新手。我想澄清我对train_test_split培训前的疑问

我有一个 size 的数据集(302, 100, 5)，其中，

(207,100,5)属于class 0

(95,100,5) 属于class 1.

我想使用 LSTM 进行分类（因为，序列数据）

我如何分割我的数据集进行训练，因为这些类没有相等的分布集？

选项 1：考虑整个数据[(302,100, 5) - both classes (0 & 1)]，对其进行洗牌，train_test_split，继续训练。

选项 2：平均拆分两个类数据集 [(95,100,5) - class 0 & (95,100,5) - class 1]，打乱它，train_test_split，继续训练。

在训练之前进行拆分的更好方法是什么，以便在减少损失、准确性、预测方面获得更好的结果？

如果有其他选项而不是以上 2 个选项，请推荐，

根据评论部分，我包括了我的一部分数据：

X_train：形状（241 * 100 * 5）

每100*5中的每一行对应1个时间步最后100行对应100个时间步，单位是毫秒（ms）

Y_train : 形状 (241,)

作为参考，正如您在上面看到的，X-train 数据很大，我无法包含我的整个 X_train 数据的完整集。所以我在这里只提供我的数据的一个片段，以便更好地理解我的数据对于 1 个片段的样子，(i.e X_train[0] : shape- (100*5)). 其余的240将或多或少如下所示

python machine-learning lstm train-test-split

2019-07-22T09:16:41.683

0 投票

1 回答

74 浏览

python - 尝试绘制散点图时出现“ValueError：x 和 y 必须相同大小”的错误

我正在尝试对黑色星期五数据集执行线性回归。当我进入模型训练部分时，我尝试拆分定义 X 和 y 值的数据集，然后执行训练测试拆分。

然后我使用线性回归训练我的模型。之后，我尝试绘制一个散点图，但出现 ValueError 错误：x 和 y 的大小必须相同。

注意：我已经导入了数据集“df”。

当我做

X.shape 我得到的结果是 (537577, 83)。但是当我执行 y.shape 时，我得到的结果是（537577，）。

此外，当散点图出现值错误时。基本上我想绘制预测结果与实际结果的散点图。

python linear-regression scatter-plot train-test-split

2019-07-26T18:16:50.623

0 投票

3 回答

1556 浏览

python - 如何正确拆分不平衡的数据集以训练和测试集？

我有一个航班延误数据集，并尝试在采样前将该集拆分为训练集和测试集。准时案件约占总数据的 80%，延误案件约占总数据的 20%。

通常在机器学习中，训练集和测试集大小的比例为 8:2。但是数据太不平衡了。所以考虑到极端情况，大部分列车数据是准时情况，大部分测试数据是延迟情况，准确性会很差。

所以我的问题是如何正确拆分不平衡的数据集来训练和测试集？

python machine-learning train-test-split imbalanced-data

2019-07-27T06:34:52.567

0 投票

7 回答

27291 浏览

python-3.x - 将图像数据集拆分为训练测试数据集

所以我有一个主文件夹，其中包含子文件夹，这些子文件夹又包含数据集的图像，如下所示。

-main_db

---CLASS_1

-----img_1

-----img_2

-----img_3

-----img_4

---CLASS_2

-----img_1

-----img_2

-----img_3

-----img_4

---CLASS_3

-----img_1

-----img_2

-----img_3

-----img_4

我需要将此数据集分成两部分，即训练数据（70%）和测试数据（30%）。下面是我想要实现的层次结构

-main_db

---training_data

-----CLASS_1

--------img_1

--------img_2

--------img_3

--------img_4

---CLASS_2

--------img_1

--------img_2

--------img_3

--------img_4

---测试数据

-----CLASS_1

--------img_5

--------img_6

--------img_7

--------img_8

---CLASS_2

--------img_5

--------img_6

--------img_7

--------img_8

任何帮助表示赞赏。谢谢

我试过这个模块。但这对我不起作用。这个模块根本没有被导入。

https://github.com/jfilter/split-folders

这正是我想要的。

python-3.x training-data train-test-split

2019-08-07T12:05:59.333

0 投票

0 回答

34 浏览

python - 将数据帧拆分为 train_test 以输入 CNN

我有两个数据框。一个 1065*75000 是我的训练矩阵，一个 1065*1 是我的目标矩阵。我想把它们分成训练和测试，这样我就可以把它们喂给我的 CNN 模型。任何帮助，将不胜感激。

我试过以下

和

cnn 正在研究这两种方法，但我怎么知道哪一种方法更好，如果有新的方法，请与我分享。

python image conv-neural-network train-test-split

2019-08-20T08:18:59.403

0 投票

3 回答

879 浏览

python - 如何将数据拆分为火车的前 808698 行，其余的行作为测试？

我有两个数据集，分别是测试和训练。我将它们收集在一个 csv 中。我想拆分我的数据以进行训练和测试。但它不应该是随机的。我需要拆分火车的前 808699 行，其余的行作为测试？

我试图阅读两个不同的 csv 但我不能。

python scikit-learn train-test-split

2019-08-20T09:18:56.487

问题标签 [train-test-split]

Reference