deep-learning - 如何创建子词词汇文件，例如 ende_32k.subword

问问题 2021-12-08T19:39:00.480

26 次

如何在以下示例中创建诸如 ende_32k.subword 之类的 vocab_file

# Tokenize a sentence.
sentence = 'It is nice to learn new things today!'
tokenized = list(trax.data.tokenize(iter([sentence]),  # Operates on streams.
                                    vocab_dir='gs://trax-ml/vocabs/',
                                    vocab_file='ende_32k.subword'))[0]

因为我正在处理阿拉伯语文本文件，所以我想创建自己的子词词汇，就像在 deeplearning.ai 中使用的那样。如何创建自己的特定于阿拉伯语数据集和词汇表的子词文件？问候

deep-learning - 如何创建子词词汇文件，例如 ende_32k.subword

0 回答 0

Related

Reference