8

Mysql 表中有大量文本。我想使用 NLTK 工具包对我的文本进行一些统计分析,然后再进行一些 NLP。我有两个选择:

  1. 从我的数据库表中一次提取所有文本(如果需要,可以将它们放入文件中)并使用 NLTK 函数
  2. 提取文本并将其转换为可与 NLTK 一起使用的“语料库”。

后者似乎很复杂,我还没有找到任何实际描述如何使用它的文章,我只发现了这个: Creating a MongoDB backed corpus reader which uses MongoDB as its database,代码相当复杂,还需要了解 MongoDB。另一方面,前者看起来非常简单,但会导致从 DB 中提取文本的开销。

现在的问题是,NLTK 中语料库的优势是什么?换句话说,如果我接受挑战并深入研究覆盖 NTLK 方法以便它可以从 MySQL 数据库中读取,是否值得麻烦?将我的文本变成语料库是否会给我一些我不能(或很难)用普通 NLTK 函数做的事情?

另外,如果您知道有关将 MySQL 连接到 NLTK 的信息,请告诉我。谢谢

4

1 回答 1

3

好吧,在阅读了很多之后,我找到了答案。有几个非常有用的功能,如搭配、搜索、common_context 等,可用于在 NLTK 中保存为语料库的文本。自己实施它们需要相当长的时间。如果从数据库中选择我的文本并放入一个文件并使用该nltk.Text函数,那么我可以使用我之前提到的所有函数,而无需编写这么多行代码甚至覆盖方法,以便我可以连接到 MySql.Here是更多信息的链接:nltk.Text

于 2011-02-15T14:25:01.067 回答