我希望将 google 通用句子编码器 large 3 ( https://tfhub.dev/google/universal-sentence-encoder-large/3 )生成的嵌入微调到我自己的语料库中。任何有关如何执行此操作的建议将不胜感激。我目前的想法是将我的语料库中的句子对馈送到编码器,然后使用额外的层对它们在语义上是否相同进行分类。我的麻烦是我不确定如何设置它,因为这需要设置两个共享权重的 USE 模型,我相信它被称为连体网络。任何有关如何做到这一点的帮助将不胜感激
def train_and_evaluate_with_module(hub_module, train_module=False):
embedded_text_feature_column1 = hub.text_embedding_column(
key="sentence1", module_spec=hub_module, trainable=train_module)
embedded_text_feature_column2 = hub.text_embedding_column(
key="sentence2", module_spec=hub_module, trainable=train_module)
estimator = tf.estimator.DNNClassifier(
hidden_units=[500, 100],
feature_columns=[embedded_text_feature_column1,embedded_text_feature_column2],
n_classes=2,
optimizer=tf.train.AdagradOptimizer(learning_rate=0.003))
estimator.train(input_fn=train_input_fn, steps=1000)
train_eval_result = estimator.evaluate(input_fn=predict_train_input_fn)
test_eval_result = estimator.evaluate(input_fn=predict_test_input_fn)
training_set_accuracy = train_eval_result["accuracy"]
test_set_accuracy = test_eval_result["accuracy"]
return {
"Training accuracy": training_set_accuracy,
"Test accuracy": test_set_accuracy
}