我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。
任何文本挖掘,任何语言的数据挖掘库都可以。
谢谢你。
我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。
任何文本挖掘,任何语言的数据挖掘库都可以。
谢谢你。
我建议你看看 R。它有大量的文本挖掘包:看看 Natural Language Processing 视图。特别是看tm
包装。以下是一些相关链接:
另一个有用的包示例是Gary King 的自述包。
试试 GATE,它有 GUI,当然你可以使用 java api 来获得更多功能: http: //gate.ac.uk/family/developer.html
您还可以使用 Weka 处理文本和进行文本挖掘,看看这些有用的讲座: http ://sentimentmining.net/weka/
stanford core-nlp 适用于英文文本,并且具有命名实体识别之类的功能。看看: http: //nlp.stanford.edu/software/corenlp.shtml
Ehsan 已经推荐的 GATE 也不错,但如果您需要编写自己的组件,它可能会有点复杂。不过,对于大型的东西来说,它很棒。
UIMA 与 GATE 类似,但不那么易于使用,因为它没有像 GATE 那样的广泛 GUI。( http://uima.apache.org )
我会推荐以下 Python 库:
nltk
keras
tensorflow
注意:在任何文本分析之前,您应该根据您的要求清理数据