背景:
如果我没记错的话,在训练网络时,我们前馈对每一层执行 sigmoid(sum(W*x)) 然后在反向传播中我们计算误差和增量(变化),然后我们计算梯度并更新权重.
假设我们在其中一层上没有激活,keras 如何计算梯度?是否只需要sum(W*x)*next_layer_delta*weights
获取当前层的增量并使用它来计算梯度?
代码:
我有这段代码,我写它来创建一个 word2vec 模型(skip-gram):
model = Sequential()
model.add(Dense(2, input_dim=len(tokens_enc)))#what does it mean for it not to have an activation here? This makes it linear because there is no non-linear function such as tanh!
model.add(Dense(len(tokens_enc), activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
# Fit the model
model.fit(X, y, epochs=20000)
输入和输出是 1 个热向量。
问题:在这种情况下,keras 如何优化权重以及在隐藏层中没有激活函数的含义是什么?