我正在网页中进行一些文本挖掘。目前我正在使用 Java,但也许有更合适的语言来做我想做的事。
我想做的一些事情的例子:
根据字母、数字、字母数字、符号等部分(字母、数字、符号等)确定单词的字符类型(类型更多)。
根据统计数据发现停用词。
根据统计和一些逻辑发现一些语法类(动词、名词、介词、连词)。
我正在考虑使用 Prolog 和 R(我对这些语言了解不多),但我不知道它们是否适合这个,或者可能是另一种更合适的语言。
我可以使用哪个?也欢迎 Java 的优秀库。
我正在网页中进行一些文本挖掘。目前我正在使用 Java,但也许有更合适的语言来做我想做的事。
我想做的一些事情的例子:
根据字母、数字、字母数字、符号等部分(字母、数字、符号等)确定单词的字符类型(类型更多)。
根据统计数据发现停用词。
根据统计和一些逻辑发现一些语法类(动词、名词、介词、连词)。
我正在考虑使用 Prolog 和 R(我对这些语言了解不多),但我不知道它们是否适合这个,或者可能是另一种更合适的语言。
我可以使用哪个?也欢迎 Java 的优秀库。
Python。!他们在这方面有一个 HELL-LOTTA 图书馆。
但是,我对序言和R一无所知。但在文本挖掘和人工智能方面,py绝对比java好很多......
我强烈推荐Perl。它有很多文本处理功能、网络搜索和解析,等等。看看CPAN的可用模块(>23.000 并且还在增长)。
我认为 Apache Solr 和 Nutch 为您提供了框架,除此之外,您可以根据您的要求对其进行扩展。
Java 有一些基本的支持,但和上面的两个产品完全不同,它们太棒了!
HTML 单元可能会为您提供一些很好的 API 来获取网页,并通过 XPath 遍历 DOM 中的元素。我已经使用它一段时间来执行简单到更复杂的操作。