3

我是计算机编程的初学者,我正在完成一篇关于 Parallel Corpora in Word Sense Disambiguation 的文章。基本上,我打算表明用词义代替词翻译可以简化识别模棱两可词含义的过程。我已经用 GIZA++ 对我的平行语料库(EUROPARL 英语-西班牙语)进行了字对齐,但我不知道如何处理输出文件。我的目的是建立一个分类器来计算翻译词的概率,给定源文本中模糊词周围的标记的上下文特征。所以,我的问题是:如何从平行语料库中提取歧义词的实例及其对齐的翻译?

我在 Python 上尝试了各种脚本,但这些脚本是在以下假设下运行的:1)英语和西班牙语文本位于不同的语料库中,2)英语和西班牙语句子共享相同的索引,这显然不起作用。例如

def ambigu_word2(document, document2):
    words = ['letter']
    for sentences in document:
        tokens = word_tokenize(sentences)
        for item in tokens:
            x = w_lemma.lemmatize(item)
            for w in words:
                if w == x in sentences:
                    print (sentences, document2[document.index(sentences)])
print (ambigu_word2(raw1, raw2))

如果您能就此事提供任何指导,我将不胜感激。

4

0 回答 0