BERT 即服务(https://github.com/hanxiao/bert-as-service)允许提取句子级嵌入。假设我有一个预训练的 LSA 模型,它给了我一个 300 维的词向量,我想了解当我尝试比较两个句子的语义连贯性时,LSA 模型在哪种情况下会比 BERT 表现更好?
我想不出 LSA 更适合这个用例的原因——因为 LSA 只是一大袋单词矩阵的压缩。
BERT 即服务(https://github.com/hanxiao/bert-as-service)允许提取句子级嵌入。假设我有一个预训练的 LSA 模型,它给了我一个 300 维的词向量,我想了解当我尝试比较两个句子的语义连贯性时,LSA 模型在哪种情况下会比 BERT 表现更好?
我想不出 LSA 更适合这个用例的原因——因为 LSA 只是一大袋单词矩阵的压缩。