问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
95 浏览

python - 创建测试和训练集,同时将某些项目放在一组中

我有一个由大约 500 个不同段落组成的数据集。对于每个段落,我都在尝试查看是否有任何其他段落的链接。基于此,我创建了段落对。我以前尝试将此问题作为二元问题(0 或 1,是否存在链接)来处理,但我现在想尝试排名(为每个段落对分配概​​率)。

我的问题是:如何随机拆分测试集和训练集,但将每个段落的所有段落对保留在同一集中?例如,对于第 1 段,我想要测试集中或训练集中的所有关联对(1-2、1-3、1-4、1-5...1-500)。例如,如果一半对在训练集中,我的排名将不起作用,因为那时测试集的排名将丢失一些对......

格式

A段| B段| 标签 | 特征...


第 1 段 | 第 4 段 | 1 | ...

第 2 段 | 第 6 段 | 1 | ...

第 6 段 | 第 8 段 | 0 | ...

第 10 段 | 第 2 段 | 1 | ...

我正在使用 sklearn train_test_split:

0 投票
4 回答
37654 浏览

python - 在测试和训练数据集中使用基于时间的拆分来拆分数据

我知道train_test_split随机拆分它,但我需要知道如何根据时间拆分它。

如何根据时间拆分相同的数据集作为 67% 的训练和 33% 的测试?数据集有一列时间戳。

我尝试搜索类似的问题,但不确定该方法。

有人可以简要解释一下吗?

0 投票
2 回答
5102 浏览

machine-learning - 为不平衡二元分类对数据进行过采样的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类)。由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割。我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样。在拆分在线示例之前,我通常已经看到它完成了,如下所示:

但是,这是否意味着测试数据可能会从训练集中重复样本(因为我们对训练集进行了过采样)?这意味着测试性能不一定要基于新的、看不见的数据。我很好这样做,但我想知道什么被认为是好的做法。谢谢!

0 投票
2 回答
2010 浏览

python - train_test_split 不拆分数据

有一个总共由 14 列组成的数据框,最后一列是整数值 = 0 或 1 的目标标签。

我已经定义:

  1. X = df.iloc[:,1:13]---- 这由特征值组成
  2. y = df.iloc[:,-1]------ 这由相应的标签组成

两者都具有所需的相同长度,X是由 13 列组成的数据框,形状为 (159880, 13),y是具有形状 (159880,) 的数组类型

但是当我执行train_test_split()Xy- 该功能无法正常工作。

下面是简单的代码:

拆分后,两者都X_train具有X_test形状(119910,13)。y_train具有形状 (39970,13) 并且y_test具有形状 (39970,)

这很奇怪,即使在定义test_size参数之后,结果也保持不变。

请告知,可能出了什么问题。

0 投票
2 回答
731 浏览

python - 测试列车拆分:错误

我怎样才能拆分我的df:

我收到一个错误,例如:

0 投票
1 回答
1650 浏览

python - 如何纠正 ImportError: cannot import name 'murmurhash3_32'

我使用命令在 python 中安装了 scikit-learn 库

当我尝试导入库或它的模块时

或者干脆import sklearn

我收到错误

发生此错误的任何原因?

我正在使用 Python 版本 3.6.3 Numpy v 1.13.3 pandas v 0.21.0

我正在使用窗户

0 投票
1 回答
1215 浏览

pandas - sklearn TimeSeriesSplit 错误:KeyError:'[0 1 2 ...] 不在索引中'

我想在以下数据帧上使用来自 sklearn 的 TimeSeriesSplit 来预测总和: 数据框

因此,要准备 X 和 y,我执行以下操作:

然后将这两个喂给:

通过这样做,我收到以下错误:

这里 X 是一个数据框,显然这会导致错误,因为如果我将 X 转换为数组,如下所示:

然后它将起作用。但是,为了以后对模型的评估,我需要 X 作为数据框。有什么方法可以将 X 保留为数据框并将其提供给 tscv 而不将其转换为数组?

0 投票
1 回答
63 浏览

python - 如何保存最佳验证分数结果,即保存 6 个拆分中的第 5 个拆分

我已将数据拆分为 6 个拆分的时间序列拆分,我的设计的最佳分数是第 5 个拆分。我想获得有关如何保存绘图以获得最佳拆分的帮助,换句话说,我可以保存拆分 5 的结果。我正在尝试比较 SVR 预测和 RNN 预测的准确性。

下面是我的 SVR 设计的片段(也许这可以让任何人指出我正确的方向)

如果可能,请帮助将第 5 个分数保存在变量中,或者任何其他方法将不胜感激。

0 投票
1 回答
19 浏览

validation - 对这里验证集的使用感到困惑

px2graph项目的main.py,训练和验证部分如下图所示:

看来作者只得到了每批验证集的结果。我想知道,如果我想观察模型是否在改进或达到最佳性能,我应该在整个验证集上使用结果吗?

0 投票
0 回答
91 浏览

python - 合并来自不同样本的训练数据的问题

我有两个训练数据文件,每个文件都单独拆分为训练和测试拆分数据。如何使用给定文件提取训练样本

我有四个文件

  • file1:一些功能
  • 文件 2:文件 1 共有的几列的一些其他功能

用一个例子详细说明

文件 1 列 - 时间戳、事件、结果、

test 1 是从文件 1 中拆分出来的测试数据,

文件 2 列 - 时间戳、用户类型、事件持续时间、结果、

test2 包含从文件 2 中拆分出来的测试数据.....

当我这样做时,我无法合并训练数据或测试数据,我要么报告数据丢失(内连接)或不明确的数据(在外连接的情况下)。我需要用这两个数据执行逻辑回归

测试 1 和测试 2 是测试数据集,分别从文件 1 和文件 2 中剥离为测试数据

我需要对训练样本执行逻辑回归并使用文件 3 和文件 4 对其进行测试。由于这种单独的拆分,我在合并时遇到了问题。有人可以建议一些最好的方法来克服这个问题吗?