如果不是 Hbase,我想近乎实时地抓取特定论坛并将数据转储到 HDFS。
我听说 Apache Nutch 可以解决这个问题,但遗憾的是它需要的技术栈已经很老了。我不想将 hadoop 从 2.6 降级到早期版本,也不想将 Elasticsearch 降级到 1.7/1.4,因此我将注意力转移到了storm-crawler。
由于我使用的是 Hadoop 2.6、Elasticsearch 2.0 和 Hbase 1.1.3,谁能告诉我storm-crawler 0.9 是否可以与它们一起使用?