我正在使用这样的变压器 FeatureExtractionPipeline:
from transformers import pipeline, LongformerTokenizer, LongformerModel
tokenizer = LongformerTokenizer.from_pretrained('allenai/longformer-base-4096')
model = LongformerModel.from_pretrained("allenai/longformer-base-4096")
nlu_feature_pipeline = pipeline(task="feature-extraction", model=model, tokenizer=tokenizer)
但是,似乎管道不使用截断来确保没有序列更长 4096,导致:
令牌索引序列长度大于此模型的指定最大序列长度 (8912 > 4096)。在模型中运行此序列将导致索引错误
有什么方法可以在管道中启用截断?或者是否有可能预先标记化然后将其输入管道?