我正在处理 ngram 模型的填充。我的代码是这样的。
n = 5
text = "hello how are"
tokens = text[-n:]
prefix = tokens[:-1]
toPad = (n) - len(prefix)-1
prefix = "<s>"*toPad+tokens
print(list(prefix))
这给了我['w', ' ', 'a', 'r', 'e']对我来说正确的输出。但是当输入文本是"he"它给我输出['<', 's', '>', '<', 's', '>', '<', 's', '>', 'h', 'e']。
但不是这个,我想要的输出是
['<s>', '<s>', '<s>', 'h', 'e']
请帮我解决这个问题。