我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行的语料库,其中包含大约 10000 个印地语句子和相应的英语翻译。我遵循了基线系统创建页面中描述的方法。但是,就在第一阶段,当我想标记我的印地语语料库并尝试执行时
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,标记器给了我以下输出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
我什至尝试过,'hin'
但它仍然无法识别该语言。谁能告诉制作翻译系统的正确方法。