我正在使用由嵌入层和 LSTM 组成的模型在 pytorch + torchtext 中执行序列标记。我已经标记了这些句子。
如果我使用自训练或其他预训练的词嵌入向量,这很简单。
但是,如果我使用 Huggingface 转换器BertTokenizer.from_pretrained
,并且分别在句子的开头和结尾添加了BertModel.from_pretrained
一个'[CLS]'
和标记。'[SEP]'
所以模型的输出变成了一个比标签/目标序列长两个元素的序列。
我不确定的是:
- 是否需要这两个标签才能
BertModel
“正确”嵌入句子的每个标记? - 如果需要它们,我可以在 BERT 嵌入层之后、LSTM 输入之前将它们取出,以便输出中的长度正确吗?