问题标签 [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
7810 浏览

python - 给定一个比率,将文件随机分配到训练/测试中

我目前正在尝试制作一个安装脚本,能够为我设置一个工作区,这样我就不需要手动进行了。我开始在 bash 中执行此操作,但很快意识到这样做效果不佳。

我的下一个想法是使用 python 来做,但似乎无法以正确的方式做到这一点。我的想法是制作一个列表(一个列表是一个 .txt 文件,其中包含所有数据文件的路径),洗牌这个列表,然后将每个文件移动到我的火车目录或测试目录,给定比率....

但这是python,没有更简单的方法来做到这一点,似乎我正在做一个不必要的解决方法只是为了分割文件。

重击代码:

我的问题是最后一部分。由于我随机选择数字,我不确定数据是否会按希望进行分区,我的最后一个 if 语句是检查分区是否正确,如果不正确,则修复它。这是不可能的,因为我正在检查浮点数,一般的解决方案更像是一个快速修复。

0 投票
3 回答
39645 浏览

python - 如何使用 tensorflow 进行 k 折交叉验证?

我正在关注tensorflow 的 IRIS 示例

我现在的情况是我将所有数据都放在一个 CSV 文件中,没有分开,我想对这些数据应用 k 折交叉验证。

我有

如何使用与 IRIS 示例相同的多层神经网络对这个数据集执行 k 折交叉验证?

0 投票
4 回答
21818 浏览

apache-spark - 火花火车测试拆分

我很好奇在最新的 2.0.1 版本中是否有类似于 sklearn 的 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html用于 apache-spark 的东西。

到目前为止,我只能找到https://spark.apache.org/docs/latest/mllib-statistics.html#stratified-sampling这似乎不太适合将严重不平衡的数据集拆分为训练/测试样本。

0 投票
1 回答
1415 浏览

python - 为什么 ShuffleSplit 比 train_test_split 更多/更少随机(使用 random_state=None)?

考虑以下两个选项:

这是输出的副本:

谁能帮助解释为什么选项 B 中的 ShuffleSplit 函数比选项 C 中的 train_test_split 函数(random_state=None)呈现更多随机结果?

0 投票
2 回答
9138 浏览

python - scikit-learn 中的分层训练/验证/测试拆分

这里已经描述了如何通过 train_test_split 在 scikit 中进行分层训练/测试拆分( scikit-learn 中的 Stratified Train/Test-split)以及如何通过 np.split 进行随机训练/验证/测试拆分的描述(How将数据分成 3 组(训练、验证和测试)?)。但是如何进行分层训练/验证/测试拆分。

进行分层(在类标签上)训练/验证/测试拆分时想到的最接近的近似值如下,但我怀疑有更好的方法可以通过一个函数调用或更准确的方式实现这一点:

假设我们要进行 60/20/20 训练/验证/测试拆分,那么我目前的方法是首先进行 60/40 分层拆分,然后对前 40 个进行 50/50 分层拆分,以最终获得60/20/20 分层拆分。

如果我的方法正确和/或您有更好的方法,请回来。

谢谢

0 投票
2 回答
652 浏览

python-3.x - 如何使用 scikit 获得结果 auc

嗨,我想将训练/测试拆分与交叉验证结合起来,并在 auc 中获得结果。

我的第一种方法我明白了,但很准确。

而且我找不到如何申请 roc_auc,请帮忙。

0 投票
12 回答
102963 浏览

keras - 使用 ImageDataGenerator 时 Keras 拆分训练测试集

我有一个目录,其中包含图像的子文件夹(根据标签)。我想在 Keras 中使用 ImageDataGenerator 时将这些数据拆分为训练集和测试集。尽管 keras 中的 model.fit() 具有用于指定拆分的参数 validation_split,但我无法为 model.fit_generator() 找到相同的参数。怎么做 ?

我没有用于验证数据的单独目录,需要将其从训练数据中拆分出来

0 投票
1 回答
902 浏览

input - ValueError: bad input shape (60, 4) Iris dataset train_test_split

将 train_test_split 用于 iris 时收到输入形状错误。我不明白为什么。我已经测试了其他数据集。train_test_split 应该处理这个形状。有什么建议么?谢谢

0 投票
0 回答
133 浏览

python-3.x - 如何在python中拆分数据并预测下个月的值

我有一个数据集,我需要在其中预测能耗。我有 9 月的数据,需要预测 10 月的值。

我需要预测 10 月的 KWH 值。如何编写 python 代码,其中9 月的数据将是我的火车数据,而 OCt 将是我的测试数据

请让我知道,如何在 Python 中进行操作。

数据集:

0 投票
1 回答
2457 浏览

python - 使用 sklearn 进行数据拆分时的随机状态参数问题

当我在 sklearn 的文档中查找 random -state 参数时,我发现:

random_state : int 或 RandomState 用于随机采样的伪随机数生成器状态。

我不太明白它是什么。

不同分类器的准确度显着变化取决于我在随机状态参数上写的数字。这是为什么?我应该设置哪个数字?

这是我第一次参与机器学习项目。