hadoop - 使用 Solr 和 Hadoop 进行文本挖掘

Question

我有一个包含大约 1 亿个文档的 Solr 数据库。我想对这些文件进行文本挖掘。

我正在考虑在 javacode 中制作文本挖掘模块。然后在 Hadoop 集群上运行 jar。（模块的输出可以存储在 solr 中。）

我是 Hadoop 和 Solr 的新手。我想知道，这可能吗？和/或是否有更好的方法对文档进行文本挖掘？

关于这种情况的任何想法，都会对我有很大帮助。

score 0 · Accepted Answer

在使用完全自定义的代码之前检查 Mahout 库；它有一个 Lucene 驱动程序，并且它与 Hadoop 集成用于大多数用途。大多数情况下，您需要术语向量才能使用 Mahout 进行挖掘。一旦你拥有它 - 这是一个相当无缝的设置。

score 0 · Accepted Answer

您是否需要经常访问文档？

如果您需要访问大型文档，可以使用SolrCloud 。分片和副本结构可以服务于高负载。

存储到 Solr 的 json/xml 很容易。

2 回答 2