问题标签 [train-test-split]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

333 问题

0 投票

1 回答

509 浏览

python - 如何纠正 Numpy 和 TPOT 数组形状错误？

我正在尝试将一个feature和labelnumpy 数组传递到train_test_split. 这些功能是单列（日期时间 dtype 转换为整数）。labels数组中有 900 个观测值。

features.shape返回(1101, 1)

labels.shape返回(1101, 900)

在拆分成特征和标签数组之前，我这样做df.fillna(0, inplace=True)是因为我认为NaN最初的问题是值。

这是我正在运行的块：

异常发生就train_test_split行了。这是一个例外：

ValueError: Error: Input data is not in a valid format. Please confirm that the input data is scikit-learn compatible. For example, the features must be a 2-D array and target labels must be a 1-D array.

这是什么原因造成的？

2019-03-22T23:48:05.783

0 投票

1 回答

1954 浏览

scikit-learn - Bunch 对象不可调用 - scikit-learn rcv1 数据集

我想拆分 RCV1 内置数据集的训练集和测试集并应用 k-means 算法，但是在尝试拆分数据时，显示一个错误，提示无法调用捆绑对象

scikit-learn dataset train-test-split

user11040323

2019-03-24T04:59:24.600

0 投票

1 回答

1278 浏览

apache-spark - PySpark randomSplit vs SkLearn Train Test Split - 随机种子问题

假设我有一个pandas数据框并应用sklearn.model_selection.train_test_split参数random_seed设置为 1。

假设我然后采用完全相同的pandas数据框并创建一个带有SQLContext. 如果我在参数设置为 1 的情况下应用 PySparkrandomSplit函数seed，是否总是能保证获得相同的精确分割？

apache-spark scikit-learn pyspark train-test-split

2019-03-31T05:15:19.310

0 投票

1 回答

15932 浏览

python - 我是否必须对训练和测试数据集分别进行一次热编码？

我正在研究一个分类问题，我已经将我的数据分成训练集和测试集。

我有几个分类列（大约 4 -6），我正在考虑使用pd.get_dummies将我的分类值转换为 OneHotEncoding。

我的问题是我必须单独为训练和测试拆分进行 OneHotEncoding 吗？如果是这种情况，我想我最好使用 sklearn OneHotEncoder，因为它支持 fit 和 transform 方法，对吧？

python machine-learning one-hot-encoding train-test-split

2019-04-04T21:29:53.253

0 投票

1 回答

874 浏览

python - 如何将矩阵拆分为训练测试数据，同时确保训练矩阵的行和列中至少存在一个值？

我想将稀疏矩阵随机拆分为相同维度的训练和测试数据，同时确保训练集中没有充满零的列或行。

为了使我的算法正常工作，我需要在训练集的每一行和每一列中至少有一个值。

我曾尝试使用这个库函数： from sklearn.model_selection import train_test_split

例如给定矩阵：

可以拆分矩阵以生成此训练矩阵：

其中第二行仅包含 0。我怎样才能避免这种情况？

python machine-learning cross-validation train-test-split

2019-04-07T14:45:20.530

0 投票

0 回答

37 浏览

python - 拆分不平衡（二进制）数据集，因此测试集具有相同数量的假样本和正样本

我正在尝试将 NN 应用于具有高级不平衡的二元分类问题；28k 假 (0.) 和 68k 真 (1.)。是否可以使用带有 train_test_split 的分层来确保测试集中 True 和 False 事件的比例相同，而不是训练集中？例如; 测试集 - 14k 错误，14k 正确。训练集 - 14k 错误，54k 正确。

python classification train-test-split

2019-04-17T16:39:34.610

0 投票

1 回答

67 浏览

r - 执行正确数据分析的步骤

我有一个包含 69 列和 50000 行的数据集。我的数据集只包含二进制变量和数值变量。此外，一些二元变量有一些缺失值（约 5%）。

我知道我应该将数据集划分为 train-test-validation 然后执行插补（我想使用带有方法的鼠标logreg）。我对此有一些疑问：

我应该只对训练集还是对测试集和验证集进行插补？如果没有，我如何在测试和验证集中填写 NA？
我的教授告诉我应该减少数据集的维度。我可以使用 PCA 来执行此操作吗？我必须在插补之前还是之后这样做？我必须将其仅应用于火车测试还是其他两组？
此外，我曾尝试使用鼠标，但它在我的数据集上速度非常慢（估算一半数据大约需要 50 分钟）。你知道有什么方法可以加快这个过程吗？（我在这个论坛上读到过类似的方法，quickpred()但它需要指定最小相关性，我不知道它在我的数据集上有多少。

r missing-data imputation train-test-split

2019-04-21T11:36:46.173

0 投票

1 回答

5696 浏览

python - 有人可以解释为什么 KFold 不承认我在这个 for 循环中对模型的定义吗？

我正在尝试比较不同的算法，看看哪种算法最适合我的问题。

我正在直接从本教程中试用代码：https ://machinelearningmastery.com/machine-learning-in-python-step-by-step/

特别是在下面的代码中：

我的进口

抽查算法

依次评估每个模型

当我运行它时，我不断得到（<---- 第 12 行）：

有人可以向我解释 KFold 是如何工作的以及为什么它不接受该实例吗？

python pandas scikit-learn train-test-split

2019-04-21T16:36:42.150

0 投票

3 回答

1158 浏览

python-3.x - 根据列值训练测试拆分 - 顺序

我有一个数据框如下

有没有办法拆分数据帧（60:40 拆分），这样 col1 的前 60% 的值将被训练，最后 40% 的测试。

火车：

测试：

python-3.x pandas train-test-split

2019-04-22T14:39:33.240

0 投票

1 回答

1991 浏览

python - test_size=0 的 train_test_split 如何影响数据？

我在我的代码中使用了 train_test_split，然后想将其更改为交叉验证，但是发生了一些奇怪的事情。

这段代码给出了大约 0.8 的分数，但是当我删除第一行并更改第 2 行和第 3 行中“数据”集的“火车”集时，分数变为 0.2，这很奇怪，因为我什至设置了 test_size为 0，因此火车应该等于整个数据。发生了什么？

python machine-learning cross-validation train-test-split

2019-04-30T16:24:30.907

1 2 3 4 5 6 7 8 9 10

问题标签 [train-test-split]

我的进口

抽查算法

依次评估每个模型

Reference