4

我正在网页中进行一些文本挖掘。目前我正在使用 Java,但也许有更合适的语言来做我想做的事。

我想做的一些事情的例子:

根据字母、数字、字母数字、符号等部分(字母、数字、符号等)确定单词的字符类型(类型更多)。

根据统计数据发现停用词。

根据统计和一些逻辑发现一些语法类(动词、名词、介词、连词)。

我正在考虑使用 Prolog 和 R(我对这些语言了解不多),但我不知道它们是否适合这个,或者可能是另一种更合适的语言。

我可以使用哪个?也欢迎 Java 的优秀库。

4

4 回答 4

4

Python。!他们在这方面有一个 HELL-LOTTA 图书馆。

但是,我对序言和R一无所知。但在文本挖掘和人工智能方面,py绝对比java好很多......

于 2011-10-25T18:40:30.303 回答
3

我强烈推荐Perl。它有很多文本处理功能、网络搜索和解析,等等。看看CPAN的可用模块(>23.000 并且还在增长)。

于 2011-10-25T18:50:59.953 回答
1

我认为 Apache Solr 和 Nutch 为您提供了框架,除此之外,您可以根据您的要求对其进行扩展。

Java 有一些基本的支持,但和上面的两个产品完全不同,它们太棒了!

于 2011-10-25T18:41:34.093 回答
0

HTML 单元可能会为您提供一些很好的 API 来获取网页,并通过 XPath 遍历 DOM 中的元素。我已经使用它一段时间来执行简单到更复杂的操作。

于 2011-10-25T19:29:59.483 回答