python - 跨语言词义消歧

问问题 2016-09-22T14:21:36.250

104 次

我是计算机编程的初学者，我正在完成一篇关于 Parallel Corpora in Word Sense Disambiguation 的文章。基本上，我打算表明用词义代替词翻译可以简化识别模棱两可词含义的过程。我已经用 GIZA++ 对我的平行语料库（EUROPARL 英语-西班牙语）进行了字对齐，但我不知道如何处理输出文件。我的目的是建立一个分类器来计算翻译词的概率，给定源文本中模糊词周围的标记的上下文特征。所以，我的问题是：如何从平行语料库中提取歧义词的实例及其对齐的翻译？

我在 Python 上尝试了各种脚本，但这些脚本是在以下假设下运行的：1）英语和西班牙语文本位于不同的语料库中，2）英语和西班牙语句子共享相同的索引，这显然不起作用。例如

def ambigu_word2(document, document2):
    words = ['letter']
    for sentences in document:
        tokens = word_tokenize(sentences)
        for item in tokens:
            x = w_lemma.lemmatize(item)
            for w in words:
                if w == x in sentences:
                    print (sentences, document2[document.index(sentences)])
print (ambigu_word2(raw1, raw2))

如果您能就此事提供任何指导，我将不胜感激。

python - 跨语言词义消歧

0 回答 0

Related

Reference