问题标签 [train-test-split]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何解决“y 中人口最少的班级只有一个成员”Scikit 学习
我正在使用过去的数据集创建一个程序来预测任何工作的员工薪水。我收到错误“警告:y 中人口最少的类只有 1 个成员,太少了。任何类中的最小成员数不能小于 n_splits=5。”
这是我尝试拆分并收到错误的地方。我对机器学习很陌生,所以如果有人能指导我如何解决这个问题,我将不胜感激。
python - 为什么 GridSearchCV 方法的准确性低于标准方法?
我使用 train_test_split ( random_state = 0
) 和没有任何参数调整的决策树来建模我的数据,我运行它大约 50 次以达到最佳精度。
在第二步中,我决定使用 GridSearchCV 方法来设置树参数。
我在第一种方法中的最佳准确性比 GridSearchCV 方法好得多。
为什么会这样?
你知道以最准确的方式获得最好的树的最佳方法吗?
python - 如何将数据拆分为训练和测试,记住熊猫中的 groupby 列?
我想以 20:80 的比例将数据集拆分为测试和训练数据集。但是,在拆分时,我不想以 1 S_Id 值在训练中的数据点很少而在测试中的其他数据点的方式进行拆分。
我有一个数据集:
我想整齐地拆分为:火车:
测试:
所有相同的 S_Id 必须在一组中。可以通过简单的'groupby'来完成吗?
谢谢您的帮助!
python - 为分类问题拆分数据集的正确程序是什么?
我是机器学习和深度学习的新手。我想澄清我对train_test_split
培训前的疑问
我有一个 size 的数据集(302, 100, 5)
,其中,
(207,100,5)
属于class 0
(95,100,5)
属于class 1.
我想使用 LSTM 进行分类(因为,序列数据)
我如何分割我的数据集进行训练,因为这些类没有相等的分布集?
选项 1:考虑整个数据[(302,100, 5) - both classes (0 & 1)]
,对其进行洗牌,train_test_split,继续训练。
选项 2:平均拆分两个类数据集
[(95,100,5) - class 0 & (95,100,5) - class 1]
,打乱它,train_test_split,继续训练。
在训练之前进行拆分的更好方法是什么,以便在减少损失、准确性、预测方面获得更好的结果?
如果有其他选项而不是以上 2 个选项,请推荐,
根据评论部分,我包括了我的一部分数据:
X_train:形状(241 * 100 * 5)
每100*5中的每一行对应1个时间步最后100行对应100个时间步,单位是毫秒(ms)
Y_train : 形状 (241,)
作为参考,正如您在上面看到的,X-train 数据很大,我无法包含我的整个 X_train 数据的完整集。所以我在这里只提供我的数据的一个片段,以便更好地理解我的数据对于 1 个片段的样子,(i.e X_train[0] : shape- (100*5))
. 其余的240
将或多或少如下所示
python - 尝试绘制散点图时出现“ValueError:x 和 y 必须相同大小”的错误
我正在尝试对黑色星期五数据集执行线性回归。当我进入模型训练部分时,我尝试拆分定义 X 和 y 值的数据集,然后执行训练测试拆分。
然后我使用线性回归训练我的模型。之后,我尝试绘制一个散点图,但出现 ValueError 错误:x 和 y 的大小必须相同。
注意:我已经导入了数据集“df”。
当我做
X.shape 我得到的结果是 (537577, 83)。但是当我执行 y.shape 时,我得到的结果是(537577,)。
此外,当散点图出现值错误时。基本上我想绘制预测结果与实际结果的散点图。
python - 如何正确拆分不平衡的数据集以训练和测试集?
我有一个航班延误数据集,并尝试在采样前将该集拆分为训练集和测试集。准时案件约占总数据的 80%,延误案件约占总数据的 20%。
通常在机器学习中,训练集和测试集大小的比例为 8:2。但是数据太不平衡了。所以考虑到极端情况,大部分列车数据是准时情况,大部分测试数据是延迟情况,准确性会很差。
所以我的问题是如何正确拆分不平衡的数据集来训练和测试集?
python-3.x - 将图像数据集拆分为训练测试数据集
所以我有一个主文件夹,其中包含子文件夹,这些子文件夹又包含数据集的图像,如下所示。
-main_db
---CLASS_1
-----img_1
-----img_2
-----img_3
-----img_4
---CLASS_2
-----img_1
-----img_2
-----img_3
-----img_4
---CLASS_3
-----img_1
-----img_2
-----img_3
-----img_4
我需要将此数据集分成两部分,即训练数据(70%)和测试数据(30%)。下面是我想要实现的层次结构
-main_db
---training_data
-----CLASS_1
--------img_1
--------img_2
--------img_3
--------img_4
---CLASS_2
--------img_1
--------img_2
--------img_3
--------img_4
---测试数据
-----CLASS_1
--------img_5
--------img_6
--------img_7
--------img_8
---CLASS_2
--------img_5
--------img_6
--------img_7
--------img_8
任何帮助表示赞赏。谢谢
我试过这个模块。但这对我不起作用。这个模块根本没有被导入。
https://github.com/jfilter/split-folders
这正是我想要的。
python - 将数据帧拆分为 train_test 以输入 CNN
我有两个数据框。一个 1065*75000 是我的训练矩阵,一个 1065*1 是我的目标矩阵。我想把它们分成训练和测试,这样我就可以把它们喂给我的 CNN 模型。任何帮助,将不胜感激。
我试过以下
和
cnn 正在研究这两种方法,但我怎么知道哪一种方法更好,如果有新的方法,请与我分享。
python - 如何将数据拆分为火车的前 808698 行,其余的行作为测试?
我有两个数据集,分别是测试和训练。我将它们收集在一个 csv 中。我想拆分我的数据以进行训练和测试。但它不应该是随机的。我需要拆分火车的前 808699 行,其余的行作为测试?
我试图阅读两个不同的 csv 但我不能。