text - 文本挖掘库还是语言库？

Question

我有一堆从我拥有的论坛中收集的数据，并且想做一些文本挖掘或使用一些语言库来提取有用的信息。

任何文本挖掘，任何语言的数据挖掘库都可以。

谢谢你。

score 4 · Accepted Answer

我建议你看看 R。它有大量的文本挖掘包：看看 Natural Language Processing 视图。特别是看tm包装。以下是一些相关链接：

Journal of Statistical Computing 关于软件包的论文：http://www.jstatsoft.org/v25/i05/paper。该论文包含一个很好的示例，该示例分析了 2006 年的 R-devel 邮件列表 ( https://stat.ethz.ch/pipermail/r-devel/ ) 新闻组帖子。
包主页：http ://cran.r-project.org/web/packages/tm/index.html
查看介绍性小插图：http ://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

另一个有用的包示例是Gary King 的自述包。

score 2 · Accepted Answer

您可能想看看 Python NLTK（自然语言工具包）：它是专门为这种事情设计的。

您还可以阅读一本很棒的书，但可以帮助您入门。

score 0 · Accepted Answer

试试 GATE，它有 GUI，当然你可以使用 java api 来获得更多功能： http: //gate.ac.uk/family/developer.html

您还可以使用 Weka 处理文本和进行文本挖掘，看看这些有用的讲座： http ://sentimentmining.net/weka/

score 0 · Accepted Answer

Mallet是一个专为文本挖掘而设计的 java 库。一旦您对文本数据进行了预处理，像Weka这样的通用数据挖掘工具也足以满足您的任务。

如果您可以访问 SPSS 或 SAS，他们的产品应该更易于使用。

score 0 · Accepted Answer

stanford core-nlp 适用于英文文本，并且具有命名实体识别之类的功能。看看： http: //nlp.stanford.edu/software/corenlp.shtml

Ehsan 已经推荐的 GATE 也不错，但如果您需要编写自己的组件，它可能会有点复杂。不过，对于大型的东西来说，它很棒。

UIMA 与 GATE 类似，但不那么易于使用，因为它没有像 GATE 那样的广泛 GUI。( http://uima.apache.org )

score 0 · Accepted Answer

我会推荐以下 Python 库：

注意：在任何文本分析之前，您应该根据您的要求清理数据

6 回答 6