nlp - 将 BertTokenizer 与 HuggingFace GPT-2 一起使用

问问题 2020-03-06T15:30:36.720

59 次

我有一个特定的生成问题，涉及从非常小的词汇表构建的数据集。理想情况下，如果我可以简单地在一组固定的标记中提供该词汇表，我的用例将更加直接。例如，我知道使用 BertTokenizer，我可以提供一个vocab.txt文件并避免对这个基本词汇进行任何进一步的标记化，我想知道是否有办法让 GPT-2 做同样的事情？我现在唯一能想到的就是创建一个被黑的PretrainedTokenizer子类，但也许有人有更好的主意？

任何想法表示赞赏。

BertTokenizer更新：好的，事实证明我可以BertWordpieceTokenizer在创建GPT2LMHeadModel. （感谢 HuggingFace 提供精心设计的模块化代码库！）

nlp - 将 BertTokenizer 与 HuggingFace GPT-2 一起使用

0 回答 0

Related

Reference