如何在以下示例中创建诸如 ende_32k.subword 之类的 vocab_file
# Tokenize a sentence.
sentence = 'It is nice to learn new things today!'
tokenized = list(trax.data.tokenize(iter([sentence]), # Operates on streams.
vocab_dir='gs://trax-ml/vocabs/',
vocab_file='ende_32k.subword'))[0]
因为我正在处理阿拉伯语文本文件,所以我想创建自己的子词词汇,就像在 deeplearning.ai 中使用的那样。如何创建自己的特定于阿拉伯语数据集和词汇表的子词文件?问候