问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
509 浏览

python - 如何纠正 Numpy 和 TPOT 数组形状错误?

我正在尝试将一个featurelabelnumpy 数组传递到train_test_split. 这些功能是单列(日期时间 dtype 转换为整数)。labels数组中有 900 个观测值。

features.shape返回(1101, 1)

labels.shape返回(1101, 900)

在拆分成特征和标签数组之前,我这样做df.fillna(0, inplace=True)是因为我认为NaN最初的问题是值。

这是我正在运行的块:

异常发生就train_test_split行了。这是一个例外:

ValueError: Error: Input data is not in a valid format. Please confirm that the input data is scikit-learn compatible. For example, the features must be a 2-D array and target labels must be a 1-D array.

这是什么原因造成的?

0 投票
1 回答
1954 浏览

scikit-learn - Bunch 对象不可调用 - scikit-learn rcv1 数据集

我想拆分 RCV1 内置数据集的训练集和测试集并应用 k-means 算法,但是在尝试拆分数据时,显示一个错误,提示无法调用捆绑对象

0 投票
1 回答
1278 浏览

apache-spark - PySpark randomSplit vs SkLearn Train Test Split - 随机种子问题

假设我有一个pandas数据框并应用sklearn.model_selection.train_test_split参数random_seed设置为 1。

假设我然后采用完全相同的pandas数据框并创建一个带有SQLContext. 如果我在参数设置为 1 的情况下应用 PySparkrandomSplit函数seed,是否总是能保证获得相同的精确分割?

0 投票
1 回答
15932 浏览

python - 我是否必须对训练和测试数据集分别进行一次热编码?

我正在研究一个分类问题,我已经将我的数据分成训练集和测试集。

我有几个分类列(大约 4 -6),我正在考虑使用pd.get_dummies将我的分类值转换为 OneHotEncoding。

我的问题是我必须单独为训练和测试拆分进行 OneHotEncoding 吗?如果是这种情况,我想我最好使用 sklearn OneHotEncoder,因为它支持 fit 和 transform 方法,对吧?

0 投票
1 回答
874 浏览

python - 如何将矩阵拆分为训练测试数据,同时确保训练矩阵的行和列中至少存在一个值?

我想将稀疏矩阵随机拆分为相同维度的训练和测试数据,同时确保训练集中没有充满零的列或行。

为了使我的算法正常工作,我需要在训练集的每一行和每一列中至少有一个值。

我曾尝试使用这个库函数: from sklearn.model_selection import train_test_split

例如给定矩阵:

可以拆分矩阵以生成此训练矩阵:

其中第二行仅包含 0。我怎样才能避免这种情况?

0 投票
0 回答
37 浏览

python - 拆分不平衡(二进制)数据集,因此测试集具有相同数量的假样本和正样本

我正在尝试将 NN 应用于具有高级不平衡的二元分类问题;28k 假 (0.) 和 68k 真 (1.)。是否可以使用带有 train_test_split 的分层来确保测试集中 True 和 False 事件的比例相同,而不是训练集中?例如; 测试集 - 14k 错误,14k 正确。训练集 - 14k 错误,54k 正确。

0 投票
1 回答
67 浏览

r - 执行正确数据分析的步骤

我有一个包含 69 列和 50000 行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二元变量有一些缺失值(约 5%)。

我知道我应该将数据集划分为 train-test-validation 然后执行插补(我想使用带有方法的鼠标logreg)。我对此有一些疑问:

  1. 我应该只对训练集还是对测试集和验证集进行插补?如果没有,我如何在测试和验证集中填写 NA?

  2. 我的教授告诉我应该减少数据集的维度。我可以使用 PCA 来执行此操作吗?我必须在插补之前还是之后这样做?我必须将其仅应用于火车测试还是其他两组?

  3. 此外,我曾尝试使用鼠标,但它在我的数据集上速度非常慢(估算一半数据大约需要 50 分钟)。你知道有什么方法可以加快这个过程吗?(我在这个论坛上读到过类似的方法,quickpred()但它需要指定最小相关性,我不知道它在我的数据集上有多少。

0 投票
1 回答
5696 浏览

python - 有人可以解释为什么 KFold 不承认我在这个 for 循环中对模型的定义吗?

我正在尝试比较不同的算法,看看哪种算法最适合我的问题。

我正在直接从本教程中试用代码:https ://machinelearningmastery.com/machine-learning-in-python-step-by-step/

特别是在下面的代码中:

我的进口

抽查算法

依次评估每个模型

当我运行它时,我不断得到(<---- 第 12 行):

有人可以向我解释 KFold 是如何工作的以及为什么它不接受该实例吗?

0 投票
3 回答
1158 浏览

python-3.x - 根据列值训练测试拆分 - 顺序

我有一个数据框如下

有没有办法拆分数据帧(60:40 拆分),这样 col1 的前 60% 的值将被训练,最后 40% 的测试。

火车 :

测试:

0 投票
1 回答
1991 浏览

python - test_size=0 的 train_test_split 如何影响数据?

我在我的代码中使用了 train_test_split,然后想将其更改为交叉验证,但是发生了一些奇怪的事情。

这段代码给出了大约 0.8 的分数,但是当我删除第一行并更改第 2 行和第 3 行中“数据”集的“火车”集时,分数变为 0.2,这很奇怪,因为我什至设置了 test_size为 0,因此火车应该等于整个数据。发生了什么?