我有一个运行良好的代码库,但是今天当我尝试运行时,我观察到它tokenizer.encode_plus
停止返回attention_mask
。是否在最新版本中删除?或者,我需要做其他事情吗?
以下代码对我有用。
encoded_dict = tokenizer.encode_plus(
truncated_query,
span_doc_tokens,
max_length=max_seq_length,
return_overflowing_tokens=True,
pad_to_max_length=True,
stride=max_seq_length - doc_stride - len(truncated_query) - sequence_pair_added_tokens,
truncation_strategy="only_second",
return_token_type_ids=True,
return_attention_mask=True
)
但现在,我只能dict_keys(['input_ids', 'token_type_ids'])
从 encode_plus 获得。另外,我意识到返回input_ids
的没有填充到max_length
.