algorithm - 分段多语言并行文本

Question

我有多语言文本，其中包含翻译成多种语言的消息。例如：

English message
Russian message
Ukrainian message

顺序不准确。我想设计一种有监督/无监督的学习算法来自动进行分割，并提取每个翻译以创建一个并行的数据语料库。

你能建议任何论文/方法吗？我无法获得用于谷歌搜索的正确关键字。

score 2 · Accepted Answer

解决问题的最基本方法是从文档中生成一袋单词。总而言之，一个词袋是一个矩阵，其中每一行是文档中的一行，每一列是一个不同的术语。

例如，如果您的文档是这样的：

hello world
привет мир
привіт світ

你将有这个矩阵：

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

然后，您可以根据需要应用分类算法（例如 k-means 或 svm）。

有关更多详细信息，我建议阅读这篇论文，该论文提供了一个很好的技术总结。

关于谷歌搜索的关键字，我想说text analysis，text mining或者information retrieval是一个好的开始。

score 1 · Accepted Answer

你为什么不试试一些语言识别软件？他们报告的准确率 > 90%：

langid.py https://github.com/saffsd/langid.py
TextCat http://odur.let.rug.nl/~vannoord/TextCat/
扁面条http://www.jmis-web.org/articles/v16_n3_p71/index.html

algorithm - 分段多语言并行文本

2 回答 2

Related

Reference