我有以下问题:我创建了一个字典(德语),其中包含单词及其相应的引理。示例:“Lagerbestände”、“Lager-bestand”;“沃恩豪斯”、“沃恩豪斯”;“火车站”、“火车站”
我现在有一个文本,我想检查所有单词的词条。它可能会出现一个不在字典中的单词,例如“Restbestände”。但是“bestände”的引理,我们已经知道了。所以我想取单词的第一部分,这在 dicti 中是未知的,并将其添加到词形化的第二部分并打印出来(或返回它)。示例:“Restbestände”->“Rest-bestand”。(“bestand”取自“Lagerbestände”的引理)
我编写了以下代码:
for limit in range(1, len(Word)):
for k, v in dicti.iteritems():
if re.search('[\w]*'+Word[limit:], k, re.IGNORECASE) != None:
if '-' in v:
tmp = v.find('-')
end = v[tmp:]
end = re.sub(ur'[-]',"", end)
Word = Word[:limit] + '-' + end `
但是我遇到了两个问题:
- 在单词的末尾,每次“ ”打印出来。我怎样才能避免这种情况?
- 这个词的第二部分有时是不正确的——一定有一个逻辑错误。
然而; 你会怎么解决这个问题?