1

我正在使用这样的变压器 FeatureExtractionPipeline:

from transformers import pipeline, LongformerTokenizer, LongformerModel

tokenizer = LongformerTokenizer.from_pretrained('allenai/longformer-base-4096')

model = LongformerModel.from_pretrained("allenai/longformer-base-4096")

nlu_feature_pipeline = pipeline(task="feature-extraction", model=model, tokenizer=tokenizer)

但是,似乎管道不使用截断来确保没有序列更长 4096,导致:

令牌索引序列长度大于此模型的指定最大序列长度 (8912 > 4096)。在模型中运行此序列将导致索引错误

有什么方法可以在管道中启用截断?或者是否有可能预先标记化然后将其输入管道?

4

0 回答 0