nlp - 如何处理神经机器翻译中的名字/未知词？

Question

谁能解释在神经机器翻译中处理未知单词而不是删除它的最佳方法，并知道在句子在任何两种语言之间进行翻译时谷歌翻译如何处理名称？

非常感谢您的回复...谢谢！

score 3 · Accepted Answer

当前的 NMT 模型不适用于传统意义上的单词，而是使用所谓的子词。将文本分割成子词是使用统计模型完成的，该模型确保经常使用的单词或字符串保持在一起，而不太常见的单词被分割，最终它们可以分割成单独的字符。这样，就不会出现词汇表外的单词了。源语言和目标语言的分割是相同的，因此模型很容易学习复制。

目前，最常用的方法是Byte-Pair Encoding和SentencePiece，它们都可以通过pip并且易于使用。

谷歌在2016 年的论文中声称使用了一种名为 WordPiece 的类似技术，但是，他们可能已经改用了谷歌在 2018 年公开的 SentencePiece。

1 回答 1