4

我正在使用字符级序列和长文本嵌入来应用连体双向 LSTM (BiLSTM)。嵌入模型是 Word2vec,序列长度是None以处理可变序列长度 (180-550),批量大小为 8,模型使用带有 TF 后端的 Keras 训练 100 个 epoch。曼哈顿距离是左侧网络和右侧网络之间的相似性度量。

def manhattan_distance(left, right):
    return K.exp(-K.sum(K.abs(left - right), axis=1, keepdims=True))

现在,evaluate.py 调用 h5 模型文件并将结果输出到 csv 文件中。问题是我第一次调用文件和第二次调用相同的测试数据的结果非常不同!如何概括结果?例如,如果我第一次获得 10.txt 和 20.txt 90% 之间的相似度分数,那么我可以在第二次/第三次/等次获得接近 90% 的分数?

PS:附图显示第一次结果在第三列,第二次结果在第四列。 结果

4

0 回答 0