很多事情都在向前发展,所以我想就这个主题进行更新,并将之前的答案留在那里以记录进度。
特定领域的培训:如果您的数据来自各种来源并且您需要针对子领域进行优化,则领域适应技术会很有用。根据我们的经验,没有单一的解决方案始终表现最佳,因此您需要尝试尽可能多的方法并比较结果。Moses 邮件列表中有一封邮件列出了可能的方法:http ://thread.gmane.org/gmane.comp.nlp.moses.user/9742/focus=9799various 。以下页面还概述了当前的研究: http: //www.statmt.org/survey/Topic/DomainAdaptation
增量培训:在 IWSLT 2013 上有一个有趣的演讲:http ://www.iwslt2013.org/downloads/Assessing_Quick_Update_Methods_of_Statistical_Translation_Models.pdf它表明当前的增量方法(1)使您的系统离线,因此您没有真正的“实时更新” " 你的模型 (2) 的表现优于全面再培训。看来问题还没有解决。
并行化翻译过程:moses 服务器落后于 moses-cmd 二进制文件。所以如果你想使用最新的功能,最好从 moses-cmd 开始。此外,社区没有兑现承诺永远不会发布 1.0 版本:-)。事实上,您可以在这里找到最新版本(2.1):http: //www.statmt.org/moses/?n=Moses.Releases