0

我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。

任何文本挖掘,任何语言的数据挖掘库都可以。

谢谢你。

4

6 回答 6

4

我建议你看看 R。它有大量的文本挖掘包:看看 Natural Language Processing 视图。特别是看tm包装。以下是一些相关链接:

另一个有用的包示例是Gary King 的自述包

于 2010-01-25T18:49:22.760 回答
2

您可能想看看 Python NLTK(自然语言工具包):它是专门为这种事情设计的。

您还可以阅读一本很棒的书,但可以帮助您入门。

于 2010-01-20T19:32:26.860 回答
0

试试 GATE,它有 GUI,当然你可以使用 java api 来获得更多功能: http: //gate.ac.uk/family/developer.html

您还可以使用 Weka 处理文本和进行文本挖掘,看看这些有用的讲座: http ://sentimentmining.net/weka/

于 2010-11-16T18:41:29.230 回答
0

Mallet是一个专为文本挖掘而设计的 java 库。一旦您对文本数据进行了预处理,像Weka这样的通用数据挖掘工具也足以满足您的任务。

如果您可以访问 SPSS 或 SAS,他们的产品应该更易于使用。

于 2010-01-20T19:29:24.527 回答
0

stanford core-nlp 适用于英文文本,并且具有命名实体识别之类的功能。看看: http: //nlp.stanford.edu/software/corenlp.shtml

Ehsan 已经推荐的 GATE 也不错,但如果您需要编写自己的组件,它可能会有点复杂。不过,对于大型的东西来说,它很棒。

UIMA 与 GATE 类似,但不那么易于使用,因为它没有像 GATE 那样的广泛 GUI。( http://uima.apache.org )

于 2014-03-29T18:07:12.110 回答
0

我会推荐以下 Python 库:

  1. nltk
  2. keras
  3. tensorflow

注意:在任何文本分析之前,您应该根据您的要求清理数据

于 2018-07-22T18:27:30.093 回答