1

也许这是不可能的,我应该放弃所有希望。或者也许有一种我没有想到的非常聪明的方法。

这是我所拥有的两个示例:

يَبِسَ - يَيْبَسُ (yabisa, yaybasu)[ybs][ي-ب-س] (变得干燥、僵硬、僵硬)20:77 yabasan = 干燥。يَسَّرَ - يُيَسِّرُ (yassara, yuyassiru)[ysr][ي-س-ر] (为方便起见) 92:7 nuyassiruhuu = 我们会减轻他的负担。

祖胡尔夫!祖胡尔夫!帮助!帮助!
Sonst bin ich verloren!否则我迷路了!祖胡尔夫!祖胡尔夫!帮助!帮助!Sonst bin ich verloren!否则我迷路了!Der listigen Schlange zum Opfer erkoren,被选为对狡猾的蛇 Barmherzigige Götter 的供品!仁慈的众神!Schon nahet sie sich,已经越来越近了,Schon nahet sie sich,已经越来越近了,

...为了进一步处理这些文本行,通过并删除一种语言真的很烦人。

我认为这可以在 NLTK 中完成的一种方法是将文本拆分为标记,通过某种方式了解基于小型语料库的每个标记的出处,然后要求 NLTK 仅“重构”我选择的标记。这只是一个疯狂的幻想吗?

4

1 回答 1

2

您可以使用 nltk.NaiveBayesClassifier 完全按照您上面所说的那样完成工作。

以下链接应该会有所帮助: http: //nltk.googlecode.com/svn/trunk/doc/book/ch06.html

它有一个使用 nltk.NaiveBayesClassifier 进行性别识别的示例。您使用相同的语言识别。

您引用的第一个示例将适用于 nltk.NaiveBayesClassifier,因为 unicode 集完全不同。

在第二个例子中,有可能像专有名词这样的词在两种语言中拼写相同,这可能会导致语言识别出现一些错误。

于 2010-09-08T16:28:10.920 回答