我对trainable = True
加载 Universal Sentence Encoder 3 时设置的含义有点困惑。我有一个小型语料库(3000 个不同的句子),给定一个句子,我想找到 10 个最相似的句子。我目前的方法是:
1) 加载模块
embed = hub.Module("path", trainable =False)
2)编码所有句子:
session.run(embed(sentences))
3)使用余弦相似度找到最接近的句子。
它表现不错,但我希望模型能够根据我自己的字典进行微调,因为有些关键字比其他关键字更重要。因此这不是分类问题。在查看现有的重新训练模块示例时(https://www.tensorflow.org/hub/tutorials/text_classification_with_tf_hub),它是用于分类的。
是否可以让 Universal Sentence Encoder 重新训练我的关键字并输出不同的嵌入(例如通过设置trainable = True
)?