1

根据文档tf.GradientTape它的__exit__()方法需要三个位置参数:typ, value, traceback.

这些参数究竟是什么?

with陈述如何推断它们?

我应该在下面的代码中给它们什么值(我没有使用with语句):

x = tf.Variable(5)

gt = tf.GradientTape()
gt.__enter__()
y = x ** 2
gt.__exit__(typ = __, value = __, traceback = __)
4

1 回答 1

-1

sys.exc_info()返回具有三个值的元组(type, value, traceback)

  1. 这里type获取正在处理的异常的异常类型
  2. value是传递给异常类的构造函数的参数。
  3. traceback包含堆栈信息,例如发生异常的位置等。

在 GradientTape 上下文中,当异常发生时,sys.exc_info()细节将被传递给exit () 函数Exits the recording context, no further operations are traced

下面是一个例子来说明这一点。

让我们考虑一个简单的函数。

def f(w1, w2):
    return 3 * w1 ** 2 + 2 * w1 * w2

通过不使用with语句:

w1, w2 = tf.Variable(5.), tf.Variable(3.)

tape = tf.GradientTape()
z = f(w1, w2)
tape.__enter__()
dz_dw1 = tape.gradient(z, w1)
try:
    dz_dw2 = tape.gradient(z, w2)
except Exception as ex:
    print(ex)
    exec_tup = sys.exc_info()
    tape.__exit__(exec_tup[0],exec_tup[1],exec_tup[2])

印刷:

GradientTape.gradient 只能在非持久性磁带上调用一次。

即使你没有通过传递值显式退出,程序也会传递这些值来退出 GradientTaoe 录制,下面是示例。

w1, w2 = tf.Variable(5.), tf.Variable(3.)

tape = tf.GradientTape()
z = f(w1, w2)
tape.__enter__()
dz_dw1 = tape.gradient(z, w1)
try:
    dz_dw2 = tape.gradient(z, w2)
except Exception as ex:
    print(ex)

打印相同的异常消息。

通过使用with语句。

with tf.GradientTape() as tape:
    z = f(w1, w2)

dz_dw1 = tape.gradient(z, w1)
try:
    dz_dw2 = tape.gradient(z, w2)
except Exception as ex:
    print(ex)
    exec_tup = sys.exc_info()
    tape.__exit__(exec_tup[0],exec_tup[1],exec_tup[2])

以下是sys.exc_info()对上述异常的响应。

(RuntimeError,
 RuntimeError('GradientTape.gradient can only be called once on non-persistent tapes.'),
 <traceback at 0x7fcd42dd4208>)

编辑1:

user2357112 supports Monica评论中所述。提供非异常情况的解决方案。

在非异常情况下,规范要求传递给的值都__exit__应该是None.

示例 1:

x = tf.constant(3.0)
g = tf.GradientTape()
g.__enter__()
g.watch(x)
y = x * x
g.__exit__(None,None,None)
z  = x*x
dy_dx = g.gradient(y, x) 
# dz_dx = g.gradient(z, x) 
print(dy_dx)
# print(dz_dx)

印刷:

tf.Tensor(6.0, shape=(), dtype=float32) 

由于在返回 Gradient 值 y之前已被捕获。__exit__

示例 2:

x = tf.constant(3.0)
g = tf.GradientTape()
g.__enter__()
g.watch(x)
y = x * x
g.__exit__(None,None,None)
z  = x*x
# dy_dx = g.gradient(y, x) 
dz_dx = g.gradient(z, x) 
# print(dy_dx)
print(dz_dx)

印刷:

None 

这是因为是在梯度停止记录z之后捕获的。__exit__

于 2020-06-11T06:23:44.167 回答