我有一套两种语言的文件:英语和德语。这些文档没有可用的元信息,程序只能查看内容。基于此,程序必须决定文档是用两种语言中的哪一种编写的。
对于这个问题,有没有可以在几个小时内实现的“标准”算法?或者,一个可以做到这一点的免费 .NET 库或工具包?我知道LingPipe,但它是
- 爪哇
- “半商业”使用不是免费的
这个问题似乎出奇的难。我检查了Google AJAX 语言 API(我首先通过搜索这个站点找到了它),但它非常糟糕。对于我指出的六个德语网页,只有一个猜测是正确的。其他猜测是瑞典语、英语、丹麦语和法语……
我想出的一个简单方法是使用停用词列表。我的应用程序已经使用这样的德语文档列表,以便使用 Lucene.Net 分析它们。如果我的应用程序扫描文档以查找任何一种语言中出现的停用词,那么出现次数较多的将获胜。可以肯定的是,这是一种非常幼稚的方法,但它可能已经足够好了。不幸的是,我没有时间成为自然语言处理方面的专家,尽管这是一个有趣的话题。