我有多语言文本,其中包含翻译成多种语言的消息。例如:
English message
Russian message
Ukrainian message
顺序不准确。我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。
你能建议任何论文/方法吗?我无法获得用于谷歌搜索的正确关键字。
我有多语言文本,其中包含翻译成多种语言的消息。例如:
English message
Russian message
Ukrainian message
顺序不准确。我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。
你能建议任何论文/方法吗?我无法获得用于谷歌搜索的正确关键字。
解决问题的最基本方法是 从文档中生成一袋单词。总而言之,一个词袋是一个矩阵,其中每一行是文档中的一行,每一列是一个不同的术语。
例如,如果您的文档是这样的:
hello world
привет мир
привіт світ
你将有这个矩阵:
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1
然后,您可以根据需要应用分类算法(例如 k-means 或 svm)。
有关更多详细信息,我建议阅读这篇论文,该论文提供了一个很好的技术总结。
关于谷歌搜索的关键字,我想说text analysis
,text mining
或者information retrieval
是一个好的开始。
你为什么不试试一些语言识别软件?他们报告的准确率 > 90%: