java - 可以推荐哪种语言用于文本挖掘/解析？

Question

我正在网页中进行一些文本挖掘。目前我正在使用 Java，但也许有更合适的语言来做我想做的事。

我想做的一些事情的例子：

根据字母、数字、字母数字、符号等部分（字母、数字、符号等）确定单词的字符类型（类型更多）。

根据统计数据发现停用词。

根据统计和一些逻辑发现一些语法类（动词、名词、介词、连词）。

我正在考虑使用 Prolog 和 R（我对这些语言了解不多），但我不知道它们是否适合这个，或者可能是另一种更合适的语言。

我可以使用哪个？也欢迎 Java 的优秀库。

score 4 · Accepted Answer

Python。！他们在这方面有一个 HELL-LOTTA 图书馆。

但是，我对序言和R一无所知。但在文本挖掘和人工智能方面，py绝对比java好很多......

score 3 · Accepted Answer

我强烈推荐Perl。它有很多文本处理功能、网络搜索和解析，等等。看看CPAN的可用模块（>23.000 并且还在增长）。

score 1 · Accepted Answer

我认为 Apache Solr 和 Nutch 为您提供了框架，除此之外，您可以根据您的要求对其进行扩展。

Java 有一些基本的支持，但和上面的两个产品完全不同，它们太棒了！

score 0 · Accepted Answer

HTML 单元可能会为您提供一些很好的 API 来获取网页，并通过 XPath 遍历 DOM 中的元素。我已经使用它一段时间来执行简单到更复杂的操作。

4 回答 4