0

我有一个格式如下的语料库:

sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score

每个句子都被标记化(由 whitespac 分隔)。

现在我需要使用 NLTK 加载这些句子。我怎样才能做到这一点 ?我可以使用 CorpusReader 中的什么方法?

在这个例子中,我可以加载 NLTK 提供的 comtrans 语料库:

from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader

comtrans = LazyCorpusLoader(
    'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
     encoding='iso-8859-1')

fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe

事实上,我需要做同样的事情,但我自己创建了一个文件。

在最后一步,我需要对英语句子的每个单词进行词形还原。

4

0 回答 0