在德语中,每份工作都有女性化和男性化的版本。女性化的是通过添加“-in”后缀从男性化的。在复数形式中,这变成了“-innen”。
例子:
| English | German
------+------------------+-----------------------
masc. | teacher doctor | Lehrer Arzt
fem. | teacher doctor | Lehrerin Ärztin
masc. | teachers doctors | Lehrer Ärzte
fem. | teachers doctors | Lehrerinnen Ärztinnen
目前,我正在使用 NLTK 的nltk.stem.snowball.GermanStemmer
. 它返回这些词干:
Lehrer -> lehr | Arzt -> arzt
Lehrerin -> lehrerin | Ärztin -> arztin
Lehrer -> lehr | Ärzte -> arzt
Lehrerinnen -> lehrerinn | Ärztinnen -> arztinn
有没有办法让这个词干分析器为所有四个版本(女性版和男性版)返回相同的词干?或者,是否有其他词干分析器这样做?
更新
我最终添加了“-innen”和“-in”作为第 1 步后缀元组中的第一个条目,如下所示:
stemmer = GermanStemmer()
stemmer._GermanStemmer__step1_suffixes = ("innen", "in") + stemmer._GermanStemmer__step1_suffixes
这样,上述所有单词都分别被提取为lehr
和arzt
。此外,到目前为止我尝试过的所有其他“工作形式”都是正确的,这意味着男性和女性形式具有相同的词干。此外,如果“工作形式”源自动词,例如Lehrer/in
,则它们与动词具有相同的词干。