我写了一些基本的程序,我想为波兰语单词提取引理,这是非常重要的,因为波兰语使用屈折变化。
我正在创建简单的程序来加载数据并将单词转换为引理,但不知道该怎么做:
from nltk import corpus
pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()
例如,我想做这样的词形还原(忽略一些词形还原可能是模棱两可的——这在波兰语中是正常的):
kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!)
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)
如何使用 pl196x 在或 nltk 中完成此类工作。
语料库的源数据包含这样的变形和引理 - 所以它是可能的,但如何访问它:
<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.