0

如何在以下示例中创建诸如 ende_32k.subword 之类的 vocab_file

# Tokenize a sentence.
sentence = 'It is nice to learn new things today!'
tokenized = list(trax.data.tokenize(iter([sentence]),  # Operates on streams.
                                    vocab_dir='gs://trax-ml/vocabs/',
                                    vocab_file='ende_32k.subword'))[0]

因为我正在处理阿拉伯语文本文件,所以我想创建自己的子词词汇,就像在 deeplearning.ai 中使用的那样。如何创建自己的特定于阿拉伯语数据集和词汇表的子词文件?问候

4

0 回答 0