我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供该词汇表,我的用例将更加直接。例如,我知道使用 BertTokenizer,我可以提供一个vocab.txt
文件并避免对这个基本词汇进行任何进一步的标记化,我想知道是否有办法让 GPT-2 做同样的事情?我现在唯一能想到的就是创建一个被黑的PretrainedTokenizer
子类,但也许有人有更好的主意?
任何想法表示赞赏。
BertTokenizer
更新:好的,事实证明我可以BertWordpieceTokenizer
在创建GPT2LMHeadModel
. (感谢 HuggingFace 提供精心设计的模块化代码库!)