-1

可重复性很重要。在我目前正在研究的一个闭源机器学习项目中,很难实现它。要看哪些部位?

4

1 回答 1

3

播种

计算机具有伪随机数生成器,这些生成器使用称为种子的值进行初始化。对于机器学习,您可能需要执行以下操作:

# I've heard the order here is important
import random
random.seed(0)

import numpy as np
np.random.seed(0)

import tensorflow as tf
tf.set_random_seed(0)
session_conf = tf.ConfigProto(intra_op_parallelism_threads=1,
                              inter_op_parallelism_threads=1)
sess = tf.Session(graph=tf.get_default_graph(), config=session_conf)

from keras import backend as K
K.set_session(sess)  # tell keras about the seeded session

# now import keras stuff

另请参阅:Keras 常见问题解答:如何在开发过程中使用 Keras 获得可重现的结果?

sklearn

sklearn.model_selection.train_test_split有一个random_state参数。

检查什么

  1. 我每次都以相同的顺序加载数据吗?
  2. 我是否以同样的方式初始化模型?
  3. 您是否使用可能会改变的外部数据?
  4. 您是否使用可能会改变的外部状态(例如datetime.now)?
于 2018-08-06T21:01:40.397 回答