我有一个句子,我需要将 N BERT tokens 对应的文本返回到特定单词的左侧和右侧。
from transformers import BertTokenizer
tz = BertTokenizer.from_pretrained("bert-base-cased")
sentence = "The Natural Science Museum of Madrid shows the RECONSTRUCTION of a dinosaur"
tokens = tz.tokenize(sentence)
print(tokens)
>>['The', 'Natural', 'Science', 'Museum', 'of', 'Madrid', 'shows', 'the', 'R', '##EC', '##ON', '##ST', '##R', '##UC', '##TI', '##ON', 'of', 'a', 'dinosaur']
我想要的是在标记马德里的左侧和右侧获取对应于 4 个标记的文本。所以我想要令牌: ['Natural', 'Science', 'Museum', 'of', 'Madrid', 'shows', 'the', 'R', '##EC'] 然后将它们转换成原文。在这种情况下,它将是“马德里自然科学博物馆展示 REC”。
有没有办法做到这一点?