我有一个包含大约 1 亿个文档的 Solr 数据库。我想对这些文件进行文本挖掘。
我正在考虑在 javacode 中制作文本挖掘模块。然后在 Hadoop 集群上运行 jar。(模块的输出可以存储在 solr 中。)
我是 Hadoop 和 Solr 的新手。我想知道,这可能吗?和/或是否有更好的方法对文档进行文本挖掘?
关于这种情况的任何想法,都会对我有很大帮助。
我有一个包含大约 1 亿个文档的 Solr 数据库。我想对这些文件进行文本挖掘。
我正在考虑在 javacode 中制作文本挖掘模块。然后在 Hadoop 集群上运行 jar。(模块的输出可以存储在 solr 中。)
我是 Hadoop 和 Solr 的新手。我想知道,这可能吗?和/或是否有更好的方法对文档进行文本挖掘?
关于这种情况的任何想法,都会对我有很大帮助。