问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3379 浏览

python - 如何解决“y 中人口最少的班级只有一个成员”Scikit 学习

我正在使用过去的数据集创建一个程序来预测任何工作的员工薪水。我收到错误“警告:y 中人口最少的类只有 1 个成员,太少了。任何类中的最小成员数不能小于 n_splits=5。”

这是我尝试拆分并收到错误的地方。我对机器学习很陌生,所以如果有人能指导我如何解决这个问题,我将不胜感激。

0 投票
2 回答
1362 浏览

python - 为什么 GridSearchCV 方法的准确性低于标准方法?

我使用 train_test_split ( random_state = 0) 和没有任何参数调整的决策树来建模我的数据,我运行它大约 50 次以达到最佳精度。

在第二步中,我决定使用 GridSearchCV 方法来设置树参数。

我在第一种方法中的最佳准确性比 GridSearchCV 方法好得多。

为什么会这样?

你知道以最准确的方式获得最好的树的最佳方法吗?

0 投票
1 回答
637 浏览

python - 来自 train_test 拆分输出的 y_test 值

我已经完成了测试火车拆分 & 现在我正在尝试进行比较 & 将预测和实际之间的差异作为一个列表并将其发送到 excel 中。我正在使用附图中所示的功能完成所有这些操作(内置功能需要满足我的要求)。为了完成我的任务,我需要 y_test 作为值,但 y_test 似乎有更多信息(如图所示)。如何仅获取 y_test 的值(蓝色框)? 在此处输入图像描述

编辑按照建议,添加代码。

我的 y_all 是数据框中的一列。也添加该数据框的一小段。

0 投票
2 回答
873 浏览

python - 如何将数据拆分为训练和测试,记住熊猫中的 groupby 列?

我想以 20:80 的比例将数据集拆分为测试和训练数据集。但是,在拆分时,我不想以 1 S_Id 值在训练中的数据点很少而在测试中的其他数据点的方式进行拆分。

我有一个数据集:

我想整齐地拆分为:火车:

测试:

所有相同的 S_Id 必须在一组中。可以通过简单的'groupby'来完成吗?

谢谢您的帮助!

0 投票
3 回答
601 浏览

python - 为分类问题拆分数据集的正确程序是什么?

我是机器学习和深度学习的新手。我想澄清我对train_test_split培训前的疑问

我有一个 size 的数据集(302, 100, 5),其中,

(207,100,5)属于class 0

(95,100,5) 属于class 1.

我想使用 LSTM 进行分类(因为,序列数据)

我如何分割我的数据集进行训练,因为这些类没有相等的分布集?

选项 1:考虑整个数据[(302,100, 5) - both classes (0 & 1)],对其进行洗牌,train_test_split,继续训练。

选项 2:平均拆分两个类数据集 [(95,100,5) - class 0 & (95,100,5) - class 1],打乱它,train_test_split,继续训练。

在训练之前进行拆分的更好方法是什么,以便在减少损失、准确性、预测方面获得更好的结果?

如果有其他选项而不是以上 2 个选项,请推荐,

根据评论部分,我包括了我的一部分数据:

X_train:形状(241 * 100 * 5)

每100*5中的每一行对应1个时间步最后100行对应100个时间步,单位是毫秒(ms)

Y_train : 形状 (241,)

作为参考,正如您在上面看到的,X-train 数据很大,我无法包含我的整个 X_train 数据的完整集。所以我在这里只提供我的数据的一个片段,以便更好地理解我的数据对于 1 个片段的样子,(i.e X_train[0] : shape- (100*5)). 其余的240将或多或少如下所示

0 投票
1 回答
74 浏览

python - 尝试绘制散点图时出现“ValueError:x 和 y 必须相同大小”的错误

我正在尝试对黑色星期五数据集执行线性回归。当我进入模型训练部分时,我尝试拆分定义 X 和 y 值的数据集,然后执行训练测试拆分。

然后我使用线性回归训练我的模型。之后,我尝试绘制一个散点图,但出现 ValueError 错误:x 和 y 的大小必须相同。

注意:我已经导入了数据集“df”。

当我做

X.shape 我得到的结果是 (537577, 83)。但是当我执行 y.shape 时,我得到的结果是(537577,)。

此外,当散点图出现值错误时。基本上我想绘制预测结果与实际结果的散点图。

0 投票
3 回答
1556 浏览

python - 如何正确拆分不平衡的数据集以训练和测试集?

我有一个航班延误数据集,并尝试在采样前将该集拆分为训练集和测试集。准时案件约占总数据的 80%,延误案件约占总数据的 20%。

通常在机器学习中,训练集和测试集大小的比例为 8:2。但是数据太不平衡了。所以考虑到极端情况,大部分列车数据是准时情况,大部分测试数据是延迟情况,准确性会很差。

所以我的问题是如何正确拆分不平衡的数据集来训练和测试集?

0 投票
7 回答
27291 浏览

python-3.x - 将图像数据集拆分为训练测试数据集

所以我有一个主文件夹,其中包含子文件夹,这些子文件夹又包含数据集的图像,如下所示。

-main_db

---CLASS_1

-----img_1

-----img_2

-----img_3

-----img_4

---CLASS_2

-----img_1

-----img_2

-----img_3

-----img_4

---CLASS_3

-----img_1

-----img_2

-----img_3

-----img_4

我需要将此数据集分成两部分,即训练数据(70%)和测试数据(30%)。下面是我想要实现的层次结构

-main_db

---training_data

-----CLASS_1

--------img_1

--------img_2

--------img_3

--------img_4

---CLASS_2

--------img_1

--------img_2

--------img_3

--------img_4

---测试数据

-----CLASS_1

--------img_5

--------img_6

--------img_7

--------img_8

---CLASS_2

--------img_5

--------img_6

--------img_7

--------img_8

任何帮助表示赞赏。谢谢

我试过这个模块。但这对我不起作用。这个模块根本没有被导入。

https://github.com/jfilter/split-folders

这正是我想要的。

0 投票
0 回答
34 浏览

python - 将数据帧拆分为 train_test 以输入 CNN

我有两个数据框。一个 1065*75000 是我的训练矩阵,一个 1065*1 是我的目标矩阵。我想把它们分成训练和测试,这样我就可以把它们喂给我的 CNN 模型。任何帮助,将不胜感激。

我试过以下

cnn 正在研究这两种方法,但我怎么知道哪一种方法更好,如果有新的方法,请与我分享。

0 投票
3 回答
879 浏览

python - 如何将数据拆分为火车的前 808698 行,其余的行作为测试?

我有两个数据集,分别是测试和训练。我将它们收集在一个 csv 中。我想拆分我的数据以进行训练和测试。但它不应该是随机的。我需要拆分火车的前 808699 行,其余的行作为测试?

我试图阅读两个不同的 csv 但我不能。