4

我最近在 nltk 中扩展了名称语料库,想知道如何将我拥有的两个文件(male.txt、female.txt)转换为语料库,以便我可以使用现有的 nltk.corpus 方法访问它们。有没有人有什么建议?

非常感谢,詹姆斯。

4

3 回答 3

4

正如自述文件所说,名称语料库不在公共领域——您应该向语料库作者发送一封电子邮件,其中包含您所做的任何更改(地址在该文件中)。除了法律和礼貌的细节之外,您可以简单地用您自己的文件替换其中一个或两个文件,它们的格式非常简单(每行一个名称,允许注释 [[和忽略]] 并以 开头'#')。

要安装一个全新的语料库,而不仅仅是调整现有的语料库,您可以从此处给出的文档开始。

于 2010-01-30T18:13:26.587 回答
1

通过查看 nltk.corpus 中的源代码然后查看语料库(位于/home/[user]/nltk_data/corpora/names - 这可能在我的 XP 文档和某处)来了解语料库阅读的工作原理在 Win7 用户的用户中)。

语料库的结构及其相关功能将很好地理解如何使用 NLTK 中可用的不同语料库。

在我的例子中,我查看了 nltk.corpus 源代码中的 names 变量,并对 WordListCorpusReader 函数感兴趣,因为名称语料库只是一个单词列表。

于 2010-03-01T12:53:17.633 回答
0

Alex 是对的,从文档开始,找出适合您的语料库的语料库阅读器。给定语料库文件的路径,简单的实例化它。正如您将在文档中看到的,内置语料库只是特定语料库阅读器类的实例。查看 nltk.corpus 包中的代码也应该会有所帮助。

于 2010-02-09T01:12:41.870 回答