这个问题是为那些熟悉 GPT 或GPT2 OpenAI 模型的人准备的。特别是与编码任务(Byte-Pair Encoding)。这是我的问题:
我想知道如何创建自己的 vocab.bpe 文件。
我有一个西班牙语语料库文本,我想用它来适应我自己的 bpe 编码器。我已经成功地使用python-bpe库创建了 encoder.json,但我不知道如何获取 vocab.bpe 文件。我已经查看了gpt-2/src/encoder.py中的代码,但是我找不到任何提示。有什么帮助或想法吗?
非常感谢你。