我正在为我的翻译系统使用 moses 工具包。我正在使用阿萨姆语和英语平行语料库并对其进行培训。但有些专有名词没有翻译。这是因为我有一个非常小的语料库(并行数据集)。所以我想在我的翻译系统中使用音译过程。
我正在使用此命令进行翻译: echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini
这给了我输出“কানাদা是一个广阔的国家”。
这是因为“কানাদা”这个词不在我的平行语料库中。
所以我拿了一些阿萨姆语和英语的平行单词列表,并按字符分解每个单词。因此,两个文件的每一行都会有单个单词,每个字符(或每个音节)之间有一个空格。我已经使用这 2 个文件将系统训练为正常的翻译任务
然后我使用以下命令 echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl
这给了我输出“ক া ন া দ া 是一个幅员辽阔的国家”
我不得不打破这个词,因为我已经对系统进行了字符训练..
然后我使用了我使用命令训练的音译系统:
echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini
这给了我输出“加拿大是一个幅员辽阔的国家”
字符是音译的..但唯一的问题是单词之间的空格。所以我想使用一个将加入单词的perl文件。我的最终命令将是
echo 'কানাদা এখন বিশাল দেশ ।'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini | ./join.pl
帮我处理这个“join.pl”文件。