我正在使用 Bert 来获取多词之间的相似性。这是我用于嵌入的代码:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('bert-large-uncased-whole-word-masking')
words = [
"Artificial intelligence",
"Data mining",
"Political history",
"Literature book"]
我还有一个包含 540000 个单词的数据集。
Vocabs = [
"Winter flooding",
"Cholesterol diet", ....]
问题是当我想将 Vocabs 嵌入到向量中时,它永远需要时间。
words_embeddings = model.encode(words)
Vocabs_embeddings = model.encode(Vocabs)
有没有办法让它更快?或者我想在 for 循环中嵌入词汇并将输出向量保存在一个文件中,这样我就不必每次需要时都嵌入 540000 个词汇。有没有办法将嵌入保存到文件中并再次使用它?我将非常感谢您花时间帮助我。