我最近在 nltk 中扩展了名称语料库,想知道如何将我拥有的两个文件(male.txt、female.txt)转换为语料库,以便我可以使用现有的 nltk.corpus 方法访问它们。有没有人有什么建议?
非常感谢,詹姆斯。
通过查看 nltk.corpus 中的源代码然后查看语料库(位于/home/[user]/nltk_data/corpora/names - 这可能在我的 XP 文档和某处)来了解语料库阅读的工作原理在 Win7 用户的用户中)。
语料库的结构及其相关功能将很好地理解如何使用 NLTK 中可用的不同语料库。
在我的例子中,我查看了 nltk.corpus 源代码中的 names 变量,并对 WordListCorpusReader 函数感兴趣,因为名称语料库只是一个单词列表。
Alex 是对的,从文档开始,找出适合您的语料库的语料库阅读器。给定语料库文件的路径,简单的实例化它。正如您将在文档中看到的,内置语料库只是特定语料库阅读器类的实例。查看 nltk.corpus 包中的代码也应该会有所帮助。