问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
180 浏览

python - train_test_split 在索引切片后不删除 y 训练和测试变量

我已经train_test_split()多次使用索引切片,但由于某种原因,它保留了 y 训练集和测试集的预测值。下面是示例数据,以及训练/测试切片和形状。

原始数据示例:

示例数据:

最终,我的目标是创建一个预测自治市镇的模型 - 它是否没有正确切片,因为我从多个列而不是单个输出中提取预测值?

0 投票
0 回答
156 浏览

python - 使用预定义的目标变量混合进行训练/验证拆分

我希望能够使用用户定义的目标变量混合进行训练/验证拆分。StratifiedKFoldStratifiedShuffleSplit从 sklearn 中保留原始样本中的混合物。但在 kaggle 或现实生活中,我们经常有一个单独的测试样本,有时可能会有非常不同的目标混合物。

假设我们手头有一个二元分类问题,但是标记的训练样本有 0/1 目标 vvalue 的 50/50 混合,而测试没有标签,但是从一个或另一个来源我们知道这个比例相当90/10。所以问题是 sklearn 中是否有一种方法可以将原始样本与 90/10 混合拆分,其中 90/10 将是输入参数。

它不必是一个完整的 kfold CV 拆分,但至少是一个交叉验证索引生成器ala StratifiedShuffleSplit

0 投票
2 回答
247 浏览

python - Linux(armv7l)上多处理池中的 Scikit-learn train_test_split 不起作用

在 Rasbperry Pi 3 上运行 Python 时,我在多处理池中使用 train_test_split 时遇到了一些奇怪的行为。

我有这样的事情:

现在,上面的代码在 Windows 7 Python 3.5.6 上完美运行,实际上 4 个线程中的每一个线程都会有不同的训练/测试拆分。

但是,当我在 Raspberry Pi 3 (scikit-learn 0.19.2) 上运行它时,似乎 4 个线程以完全相同的方式拆分数据,因此所有线程都产生完全相同的结果。接下来的 4 个线程将再次拆分数据(这次不同),但它们之间的方式仍然完全相同,依此类推....

我什至尝试使用带有 random_state=np.random.randint 的 train_test_split,但它没有帮助。

任何想法为什么这在 Windows 中有效但在树莓派 3 上似乎不能正确并行化?

非常感谢

0 投票
1 回答
1434 浏览

python - 拆分数据集以按行进行训练和测试

我想根据年份将我的数据集拆分为训练和测试数据集。想法是将 2009-2017 年的行放在训练数据集中,将 2018 年的数据放在测试数据集中。在大多数情况下,拆分数据集很容易,但我的模型引发了很多索引问题。

这就是我计划拆分数据的方式。使用列是我的预测列,包含连续值。应用一个简单的 RandomForestRegressor() 给了我这个错误作为回报

aditya 我的回归模型非常基本,但我以任何方式附加代码。X 中传递的列如下: X= [Cust_Id', 'Usage', 'Plan_Group', 'Contract_Type', 'Cust_Status','Premise_Zip', 'Year', 'Month']

0 投票
1 回答
1347 浏览

python - sklearn中的Kfold交叉验证每次都会给出不同的折叠

我想在我的模型上实现 KFold 交叉验证。由于我想与他人分享我的结果,我希望每次都有固定的结果。我使用 xgboost 模型作为我的分类模型。但是,每次我运行我的代码时,我的性能指标每次都会给出不同的结果,我很困惑,因为我将shuffle参数设置为False. 此外,我不确定该random_state参数的作用(我阅读了文档),但无论我尝试使用 shuffle=False 将其设置为固定数字,但这并没有帮助。

0 投票
1 回答
1742 浏览

machine-learning - 在 Keras 中进行交叉验证和 validation_data/validation_split 之间的区别

首先,我将数据集拆分为训练和测试,例如:

然后我使用GridSearchCV交叉验证来找到性能最好的模型:

通过这样做,我有:

使用 k-1 个折叠作为训练数据来训练模型;生成的模型在数据的剩余部分(scikit-learn.org)上进行验证

但是,当阅读有关 Kerasfit功能时,该文档又引入了 2 个术语:

validation_split:在 0 和 1 之间浮动。要用作验证数据的训练数据的一部分。该模型将分离这部分训练数据,不会对其进行训练,并将在每个 epoch 结束时评估该数据的损失和任何模型指标。在改组之前,从提供的 x 和 y 数据中的最后一个样本中选择验证数据。

validation_data:元组 (x_val, y_val) 或元组 (x_val, y_val, val_sample_weights) 用于评估每个时期结束时的损失和任何模型指标。模型不会根据这些数据进行训练。validation_data 将覆盖validation_split。

据我了解,validation_split(被覆盖validation_data)将用作未更改的验证数据集,同时在每个交叉验证步骤期间的交叉验证更改中设置保留。

  • 第一个问题: 是否有必要使用validation_split或者validation_data因为我已经进行了交叉验证?
  • 第二个问题:如果没有必要,那么我应该分别将validation_split和设置validation_data为0和无吗?

    /li>
  • 问题 3:如果我这样做了,在训练过程中会发生什么,Keras 会直接忽略验证步骤吗?

  • 问题 4:属于还是,或者它会被视为“测试集”(如 的情况),永远不会用于训练模型。validation_splitk-1 foldshold-out foldcross validation

0 投票
3 回答
1256 浏览

python - 在数据帧列表上使用 train_test_split

我有一个 12 个特征数据帧,命名为X[0], X[1]... 直到它对应X[11]12 个响应数据帧。我需要使用 train_test_split 函数将它们分成训练和测试数据帧。由于这处理空列表简单的分配:y[0]y[11](X_train[], X_test[], y_train[] and y_test[])

给出这个错误:

IndexError:列表分配索引超出范围

我不知道如何在append()这里使用函数。谁能帮帮我?

0 投票
2 回答
1409 浏览

c# - ML.NET TrainTestSplit random seed

I am using TrainTestSplit in ML.NET, to repeatedly split my data set into a training and test set. In e.g. sklearn, the corresponding function takes a seed as an input, so that it is possible to obtain different splits, but in ML.NET repeated calls to TrainTestSplit seems to return the same split. Is it possible to change the random seed used by TrainTestSplit?

0 投票
1 回答
964 浏览

python - 通过在 pandas 中使用 groupby() 的百分比从训练集中获取验证集

拥有一个包含多类目标变量的训练数据集category

我想通过每个类的百分比(比如说 20%)从训练集中获取新的验证数据集,以避免在验证集中丢失类并破坏模型。所以基本上理想的输出将是 df 具有相同的结构和信息,如火车集,但参数如下:

是否有任何直接的方法可以在熊猫中解决它?

0 投票
1 回答
4404 浏览

python - 训练和测试拆分后的数据索引

伙计们,我是数据科学和 Python 的新手。我正在研究回归问题。我的问题是,当我尝试绘制目标变量的测试部分时,我得到了奇怪的绘图类型

在此处输入图像描述

是因为附加到 test_target 的随机索引..?

我怎样才能得到这样的连续曲线在此处输入图像描述