我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID,例如:
["loving is great", "This is another example"]
我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多:例如,第一句对应于[[0, 459, 6496, 83, 6782, 2]]
,和。从 ID 中获取词嵌入的矩阵后,我试图仅识别与某些特定标记相对应的词嵌入/向量:有没有办法做到这一点?如果原始令牌有时被分配了多个 ID,并且无法预测,我看不出这是怎么可能的。loving
456
6496
更一般地说,我的任务是获取句子中某些特定标记的词嵌入:因此,我的目标是首先使用句子,以便可以在句法上下文中计算单个标记的词嵌入,但随后我想确定/只保留一些特定标记的向量,而不是句子中所有标记的向量。