我正在使用来自github的 OpenAI GPT-2 模型
我认为 top_k 参数决定了采样的令牌数量。这也是指示可以给出多大提示的参数吗?
如果top_k = 40,提示可以有多大?
GPT-2 不适用于字符级别,但适用于子词级别。训练的文本段的最大长度为 1,024 个子词。
它使用基于byte-pair-encoding的词汇表。在这样的编码下,频繁的词保持不变,不频繁的词被分成几个单元,最终下降到字节级别。在实践中,分割看起来像这样(69 个字符,17 个子词):
Hello , ▁Stack Over flow ! ▁This ▁is ▁an ▁example ▁how _a ▁string ▁gets ▁segment ed .
在训练时,提示和答案没有区别,所以唯一的限制是提示和答案的总和不能超过 1024 个子词。理论上,您可以在此范围之外继续生成,但历史模型认为永远不会更长。
仅选择top_k
影响内存需求。长查询也需要更多内存,但这可能不是主要限制