pytorch - 如何定义带有拥抱面变压器管道的摘要配给？

Question

我正在使用下面的代码来总结一篇使用huggingface-transformer的管道的文章。使用此代码：

from transformers import pipeline
summarizer = pipeline(task="summarization" )
summary = summarizer(text)
print(summary[0]['summary_text'])

如何定义摘要和原始文章之间的比率？比如20%的原创文章？

编辑1：我实施了您建议的解决方案，但出现以下错误。这是我使用的代码：

summarizer(text, min_length = int(0.1 * len(text)), max_length = int(0.2 * len(text)))
print(summary[0]['summary_text'])

我得到的错误：

RuntimeError                              Traceback (most recent call last)
<ipython-input-9-bc11c5d8eb66> in <module>()
----> 1 summarizer(text, min_length = int(0.1 * len(text)), max_length = int(0.2 * len(text)))
      2 print(summary[0]['summary_text'])

13 frames
/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py in embedding(input, weight, padding_idx, max_norm, norm_type, scale_grad_by_freq, sparse)
   1482         # remove once script supports set_grad_enabled
   1483         _no_grad_embedding_renorm_(weight, input, max_norm, norm_type)
-> 1484     return torch.embedding(weight, input, padding_idx, scale_grad_by_freq, sparse)
   1485 
   1486 

RuntimeError: index out of range: Tried to access index 1026 out of table with 1025 rows. at /pytorch/aten/src/TH/generic/THTensorEvenMoreMath.cpp:418

score 1 · Accepted Answer

（请注意，此答案基于变压器 2.6 版的文档）

似乎到目前为止有关管道功能的文档仍然很浅，这就是为什么我们必须深入挖掘的原因。调用 Python 对象时，它在内部引用自己的__call__属性，我们可以在此处找到汇总管道。

请注意，它允许我们（类似于底层BartForConditionalGeneration模型）指定min_lengthand max_length，这就是为什么我们可以简单地调用类似

summarizer(text, min_length = 0.1 * len(text), max_length = 0.2 * len(text)

这将为您提供大约 10-20% 长度的原始数据的摘要，但您当然可以根据自己的喜好进行更改。请注意， for 的默认值为BartForConditionalGeneration20 max_length（截至目前，min_length未记录，但默认为 0），而汇总管道具有值min_length=21和max_length=142.

pytorch - 如何定义带有拥抱面变压器管道的摘要配给？

1 回答 1

Related

Reference