11

假设我想在训练期间更新一个预训练的词嵌入矩阵,有没有办法只更新词嵌入矩阵的一个子集?

我查看了 Tensorflow API 页面并发现了这一点:

# Create an optimizer.
opt = GradientDescentOptimizer(learning_rate=0.1)

# Compute the gradients for a list of variables.
grads_and_vars = opt.compute_gradients(loss, <list of variables>)

# grads_and_vars is a list of tuples (gradient, variable).  Do whatever you
# need to the 'gradient' part, for example cap them, etc.
capped_grads_and_vars = [(MyCapper(gv[0]), gv[1])) for gv in grads_and_vars]

# Ask the optimizer to apply the capped gradients.
opt.apply_gradients(capped_grads_and_vars)

但是,我如何将其应用于词嵌入矩阵。假设我这样做:

word_emb = tf.Variable(0.2 * tf.random_uniform([syn0.shape[0],s['es']], minval=-1.0, maxval=1.0, dtype=tf.float32),name='word_emb',trainable=False)

gather_emb = tf.gather(word_emb,indices) #assuming that I pass some indices as placeholder through feed_dict

opt = tf.train.AdamOptimizer(1e-4)
grad = opt.compute_gradients(loss,gather_emb)

然后如何使用opt.apply_gradientstf.scatter_update更新原始嵌入矩阵?compute_gradient(此外,如果 的第二个参数不是 a ,则 tensorflow 会引发错误tf.Variable

4

3 回答 3

21

TL;DR: TensorFlow的默认实现opt.minimize(loss)将生成一个稀疏更新word_emb,仅修改word_emb参与前向传递的行。

tf.gather(word_emb, indices)操作相对于对象的梯度word_emb是一个tf.IndexedSlices对象(有关更多详细信息,请参见实现)。这个对象表示一个稀疏张量,除了 选择的行之外,它处处为零indices。对调用的opt.minimize(loss)调用AdamOptimizer._apply_sparse(word_emb_grad, word_emb),它调用tf.scatter_sub(word_emb, ...)* 只更新word_emb由 选择的行indices

另一方面,如果您想修改tf.IndexedSlices由. 例如,您可以使用以下调用(如示例中所示)限制渐变:opt.compute_gradients(loss, word_emb)indicesvaluestf.IndexedSlicesopt.apply_gradients([(word_emb, ...)])MyCapper()

grad, = opt.compute_gradients(loss, word_emb)
train_op = opt.apply_gradients(
    [tf.IndexedSlices(MyCapper(grad.values), grad.indices)])

tf.IndexedSlices同样,您可以通过创建具有不同索引的新索引来更改将要修改的索引集。


* 一般而言,如果您只想更新 TensorFlow 中的变量的一部分,您可以使用tf.scatter_update()tf.scatter_add()tf.scatter_sub()运算符,它们分别设置、添加 ( +=) 或从 ( ) 中减去-=先前存储在变量中的值。

于 2016-03-07T06:09:56.477 回答
6

由于您只想选择要更新的元素(而不是更改渐变),您可以执行以下操作。

indices_to_update是一个布尔张量,指示您希望更新的索引,并entry_stop_gradients在链接中定义,然后:

gather_emb = entry_stop_gradients(gather_emb, indices_to_update)

来源

于 2017-08-23T05:59:22.723 回答
0

实际上,我也在为这样的问题而苦苦挣扎。就我而言,我需要使用 w2v 嵌入来训练模型,但并非所有标记都存在于嵌入矩阵中。因此,对于那些不在矩阵中的标记,我进行了随机初始化。当然,已经训练嵌入的令牌不应该更新,因此我想出了这样一个解决方案:

class PartialEmbeddingsUpdate(tf.keras.layers.Layer):
def __init__(self, len_vocab, 
             weights,
            indices_to_update):
    super(PartialEmbeddingsUpdate, self).__init__()
    self.embeddings = tf.Variable(weights, name='embedding', dtype=tf.float32)
    self.bool_mask = tf.equal(tf.expand_dims(tf.range(0,len_vocab),1), tf.expand_dims(indices_to_update,0))
    self.bool_mask = tf.reduce_any(self.bool_mask,1)
    self.bool_mask_not = tf.logical_not(self.bool_mask)
    self.bool_mask_not = tf.expand_dims(tf.cast(self.bool_mask_not, dtype=self.embeddings.dtype),1)
    self.bool_mask = tf.expand_dims(tf.cast(self.bool_mask, dtype=self.embeddings.dtype),1)
    
def call(self, input):
    input = tf.cast(input, dtype=tf.int32)
    embeddings = tf.stop_gradient(self.bool_mask_not * self.embeddings) + self.bool_mask * self.embeddings
    return tf.gather(embeddings,input)

其中 len_vocab - 是您的词汇长度, weights - 权重矩阵(其中一些不应更新)和 indices_to_update - 应更新的标记的索引。之后我应用了这个层而不是 tf.keras.layers.Embeddings。希望对遇到同样问题的大家有所帮助。

于 2021-02-20T21:51:29.023 回答