0

我试图在 Tf1 和 Tf2 之间复制相同的结果。下面是一个使用 Adam 优化器的简单示例。

在 TF2 中:

x = tf.Variable([1,2,3], dtype=tf.float32)
grad = tf.constant([0.1, 0.2, 0.3])
optimizer = tf.keras.optimizers.Adam(learning_rate=0.5, epsilon=1e-08)
optimizer.apply_gradients(zip([grad], [x]))
print(x)

x 是:<tf.Variable 'Variable:0' shape=(3,) dtype=float32, numpy=array([0.49998665, 1.4999859 , 2.4999857 ], dtype=float32)>

在 TF1 中:

x = tf.Variable([1,2,3], dtype=tf.float32)
grad = tf.constant([0.1, 0.2, 0.3])
optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=0.5)
optimizer.apply_gradients(zip([grad], [x]))

init_op = tf.initialize_all_variables()
with tf.Session() as sess:
  sess.run(init_op)
  print(sess.run(x))

x 是:[1。2. 3.]

有谁知道使用 Adam Optimizer 时导致 Tf1 和 Tf2 不一致的原因是什么?我不排除执行错误的可能性。

如果有人能告诉我我在 TF1 中做错了什么,我无法获得与 TF2 中相同的结果,我将不胜感激。

非常感谢!

4

2 回答 2

1

如果您改为这样做:

x = tf.Variable([1,2,3], dtype=tf.float32)
grad = tf.constant([0.1, 0.2, 0.3])
optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=0.5)
step = optimizer.apply_gradients(zip([grad], [x]))

init_op = tf.initialize_all_variables()
with tf.Session() as sess:
  sess.run(init_op)
  sess.run(step)
  print(x.eval())

你会得到相同的结果(除非我认为可能是浮点数不准确)。

[0.50000155 1.5000007  2.5000005 ]
于 2021-12-20T15:08:01.100 回答
0

可重复性是商业 AI/ML 项目中一个棘手但至关重要的步骤。

这是 GH 上 Adam 的 v1 实现:https ://github.com/tensorflow/tensorflow/blob/4c081973a6374ce867794ad66a5c4b204c310afb/tensorflow/python/keras/optimizer_v1.py#L468

这是 v2:https ://github.com/keras-team/keras/blob/v2.7.0/keras/optimizer_v2/adam.py

它们的实现方式略有不同。我在 V2 文档中找到了这一点:许多优化器子类,例如分配AdamAdagrad管理与要训练的变量相关的附加变量。这些被称为 插槽。插槽有名称,您可以向优化器询问它使用的插槽的名称。一旦有了槽名称,您就可以向优化器询问它创建的用于保存槽值的变量。

此外,如果您尝试将代码从 1 迁移到 2,您可以按照https://www.tensorflow.org/guide/migrate自动执行此操作。

于 2021-12-18T21:14:04.893 回答