1

我有一个印地语 wordnet 的数据库和 API。我想从 NLTK python 访问这个 wordnet,以便在我们的 wordnet 中使用 NLTK Wordnet 函数。有什么方法可以将我们自己的 wordnet 添加到 NLTK 中?或者是否有任何印地语词义消歧工具(可以通过一些修改与任何语言 Wordnet 一起使用)(从 wordnet 中给出最合适的意义)?

4

1 回答 1

1

如果你查看你的 nltk_data 文件夹,你会发现 wordnet 和其他所有 NLTK 语料库一样只是一堆纯文本文件。因此,必须有一种方法来格式化印地语 wordnet,就像使用 NLTK 一样来使用这些功能。以下是正在读取这些文件的 nltk.corpus.reader.wordnet 对象的摘录:

#: A list of file identifiers for all the fileids used by this
#: corpus reader.
_FILES = ('cntlist.rev', 'lexnames', 'index.sense',
          'index.adj', 'index.adv', 'index.noun', 'index.verb',
          'data.adj', 'data.adv', 'data.noun', 'data.verb',
          'adj.exc', 'adv.exc', 'noun.exc', 'verb.exc', )

def __init__(self, root):
    """
    Construct a new wordnet corpus reader, with the given root
    directory.
    """
    super(WordNetCorpusReader, self).__init__(root, self._FILES,
                                              encoding=self._ENCODING)

我想您并不真的需要生成所有这些文件,但更重要的是必须使用“index.sense”文件进行词义消歧。这不是由 NLTK 生成的,但必须在此之前进行预处理,或者必须以以下格式随印地语 wordnet 一起提供 - http://wordnet.princeton.edu/wordnet/man/senseidx.5WN.html

完成所有步骤后,我只需转到 ../nltk/corpus/reader/wordnet.py 并创建一个副本,您可以在其中更改根目录和文件名以及其他一些依赖项,但仍使用该功能或在现有课程中更改您需要的内容(不推荐)。

PS 一点谷歌搜索给了我指向http://www.cs.utexas.edu/~rashish/cs365ppt.pdf的链接,该链接引用了有关该主题的许多其他来源。

于 2014-06-05T22:24:29.513 回答