python - 如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件（GPT 和 GPT2 OpenAI 模型）？

Question

这个问题是为那些熟悉 GPT 或GPT2 OpenAI 模型的人准备的。特别是与编码任务（Byte-Pair Encoding）。这是我的问题：

我想知道如何创建自己的 vocab.bpe 文件。

我有一个西班牙语语料库文本，我想用它来适应我自己的 bpe 编码器。我已经成功地使用python-bpe库创建了 encoder.json，但我不知道如何获取 vocab.bpe 文件。我已经查看了gpt-2/src/encoder.py中的代码，但是我找不到任何提示。有什么帮助或想法吗？

非常感谢你。

score 4 · Accepted Answer

在这里查看，您可以使用以下命令轻松创建相同的 vocab.bpe：

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000

score 2 · Accepted Answer

我没有使用过 GPT2，但bpemb是子词嵌入的一个很好的起点。根据自述文件

BPEmb 是 275 种语言的预训练子词嵌入集合，基于字节对编码 (BPE) 并在 Wikipedia 上进行了训练。它的预期用途是作为自然语言处理中神经模型的输入。

我已经在我的一个项目中使用了预训练的嵌入以及句子，结果证明它非常有用。

2 回答 2