1

我有一个包含大约 1 亿个文档的 Solr 数据库。我想对这些文件进行文本挖掘。

我正在考虑在 javacode 中制作文本挖掘模块。然后在 Hadoop 集群上运行 jar。(模块的输出可以存储在 solr 中。)

我是 Hadoop 和 Solr 的新手。我想知道,这可能吗?和/或是否有更好的方法对文档进行文本挖掘?

关于这种情况的任何想法,都会对我有很大帮助。

4

2 回答 2

0

在使用完全自定义的代码之前检查 Mahout 库;它有一个 Lucene 驱动程序,并且它与 Hadoop 集成用于大多数用途。大多数情况下,您需要术语向量才能使用 Mahout 进行挖掘。一旦你拥有它 - 这是一个相当无缝的设置。

于 2013-10-19T17:49:01.330 回答
0

您是否需要经常访问文档?

如果您需要访问大型文档,可以使用SolrCloud 。分片和副本结构可以服务于高负载。

存储到 Solr 的 json/xml 很容易。

于 2013-10-18T08:49:05.947 回答