transformer - XLM-RoBERTa 令牌 - id 关系

Question

我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID，例如：

["loving is great", "This is another example"]

我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多：例如，第一句对应于[[0, 459, 6496, 83, 6782, 2]],和。从 ID 中获取词嵌入的矩阵后，我试图仅识别与某些特定标记相对应的词嵌入/向量：有没有办法做到这一点？如果原始令牌有时被分配了多个 ID，并且无法预测，我看不出这是怎么可能的。loving4566496

更一般地说，我的任务是获取句子中某些特定标记的词嵌入：因此，我的目标是首先使用句子，以便可以在句法上下文中计算单个标记的词嵌入，但随后我想确定/只保留一些特定标记的向量，而不是句子中所有标记的向量。

score 1 · Accepted Answer

1

于 2020-09-29T07:15:49.530 回答

transformer - XLM-RoBERTa 令牌 - id 关系

1 回答 1

Related

Reference