python - 如何在 Python 自然语言工具包中创建自己的语料库？

Question

我最近在 nltk 中扩展了名称语料库，想知道如何将我拥有的两个文件（male.txt、female.txt）转换为语料库，以便我可以使用现有的 nltk.corpus 方法访问它们。有没有人有什么建议？

非常感谢，詹姆斯。

score 4 · Accepted Answer

正如自述文件所说，名称语料库不在公共领域——您应该向语料库作者发送一封电子邮件，其中包含您所做的任何更改（地址在该文件中）。除了法律和礼貌的细节之外，您可以简单地用您自己的文件替换其中一个或两个文件，它们的格式非常简单（每行一个名称，允许注释 [[和忽略]] 并以开头'#'）。

要安装一个全新的语料库，而不仅仅是调整现有的语料库，您可以从此处给出的文档开始。

score 1 · Accepted Answer

通过查看 nltk.corpus 中的源代码然后查看语料库（位于/home/[user]/nltk_data/corpora/names - 这可能在我的 XP 文档和某处）来了解语料库阅读的工作原理在 Win7 用户的用户中）。

语料库的结构及其相关功能将很好地理解如何使用 NLTK 中可用的不同语料库。

在我的例子中，我查看了 nltk.corpus 源代码中的 names 变量，并对 WordListCorpusReader 函数感兴趣，因为名称语料库只是一个单词列表。

score 0 · Accepted Answer

Alex 是对的，从文档开始，找出适合您的语料库的语料库阅读器。给定语料库文件的路径，简单的实例化它。正如您将在文档中看到的，内置语料库只是特定语料库阅读器类的实例。查看 nltk.corpus 包中的代码也应该会有所帮助。

3 回答 3