1

我使用来自https://github.com/huggingface/transformers/tree/master/examples/summarization的人工智能摘要——最先进的结果。

我应该自己训练它以获得比原始拥抱脸 github 训练脚本中使用的时间更长的摘要输出吗?

python run_summarization.py \
    --documents_dir $DATA_PATH \
    --summaries_output_dir $SUMMARIES_PATH \ # optional
    --no_cuda false \
    --batch_size 4 \
    --min_length 50 \
    --max_length 200 \
    --beam_size 5 \
    --alpha 0.95 \
    --block_trigram true \
    --compute_rouge true

当我做推理时

--min_length 500 \
--max_length 600 \

我得到了 200 个标记的良好输出,但其余文本是

. . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7]  [unused4] [unused7] [unused8]. [unused4] [unused7] . [unused4] [unused8] [unused4] [unused8].  [unused4]  [unused4] [unused8]  [unused4] . .  [unused4] [unused6] [unused4] [unused7] [unused6] [unused4] [unused8] [unused5] [unused4] [unused7] [unused4] [unused4] [unused7]. [unused4] [unused6]. [unused4] [unused4] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8] [unused6] [unused4]   [unused4] [unused4]. [unused4].  [unused5] [unused4] [unused8] [unused7] [unused4] [unused7] [unused9] [unused4] [unused7]  [unused4] [unused7] [unused5] [unused4]  [unused5] [unused4] [unused6]  [unused4]. .  . [unused5]. [unused4]  [unused4]   [unused4] [unused6] [unused5] [unused4] [unused4]  [unused6] [unused4] [unused6]  [unused4] [unused4] [unused5] [unused4]. [unused5]  [unused4] . [unused4]  [unused4] [unused8] [unused8] [unused4]  [unused7] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8]  [unused4]  [unused8] [unused4] [unused6] 
4

1 回答 1

3

简短的回答是:是的,可能。

为了更详细地解释这一点,我们必须查看实现背后的论文:在表 1 中,您可以清楚地看到它们生成的大多数标题都比您尝试初始化的要短得多尽管仅此一项可能并不能表明您无法再生成任何东西,但我们可以更深入地了解[unusedX]令牌的含义,如 BERT 开发人员Jacob Devlin所述:

由于[ [unusedX] tokens]未被使用,因此它们被有效地随机初始化。

此外,总结论文描述了

原始 BERT 模型中的位置嵌入最大长度为 512;我们通过添加更多位置嵌入来克服这个限制,这些位置嵌入是随机初始化的,并使用编码器中的其他参数进行微调。

这是一个强有力的指标,表明超过一定长度后,它们可能会退回到默认初始化,不幸的是这是随机的。问题是你是否仍然可以挽救之前的预训练,并简单地调整到你的目标,或者从头开始是否更好。

于 2020-02-20T08:45:28.873 回答