我正在宾夕法尼亚树库上实施语言模型培训。
我为每个时间步添加损失,然后计算困惑度。
即使经过一段时间的训练,这也给了我数千亿的高度困惑。
损失本身会减少,但最多只能降到 20 左右。(我需要一位数字来表示损失以获得合理的困惑)。
这让我怀疑我的困惑度计算是否被误导了。
它应该基于每个时间步的损失然后平均而不是全部加起来吗?
我的 batch_size 是 20,num_steps 是 35。
def perplexity(loss):
perplexity = np.exp(loss)
return perplexity
...
loss = 0
x = nn.Variable((batch_size, num_steps))
t = nn.Variable((batch_size, num_steps))
e_list = [PF.embed(x_elm, num_words, state_size, name="embed") for x_elm in F.split(x, axis=1)]
t_list = F.split(t, axis=1)
for i, (e_t, t_t) in enumerate(zip(e_list, t_list)):
h1 = l1(F.dropout(e_t,0.5))
h2 = l2(F.dropout(h1,0.5))
y = PF.affine(F.dropout(h2,0.5), num_words, name="pred")
t_t = F.reshape(t_t,[batch_size,1])
loss += F.mean(F.softmax_cross_entropy(y, t_t))
for epoch in range(max_epoch):
....
for i in range(iter_per_epoch):
x.d, t.d = get_words(train_data, i, batch_size)
perp = perplexity(loss.d)
....