我有一个数据仓库问题,需要查询一个大型数据集。为了这个例子,假设一个典型的州会有 3000 万用户,每个用户都有活动统计信息。理想情况下,我可以购买数据仓库工具(Vertica、Infobright 等),但这不在卡片或预算之内。
现在我正在考虑使用 Solr 来查询 HBase。虽然我相信 HBase 可以扩展以满足需求,但我担心 Solr。它作为搜索引擎进行了优化,即结果的第一页在最后一页之前返回,并且不支持诸如数据库游标之类的东西。到目前为止的测试表明,从 Solr 获得大量结果集的速度比我希望的要慢。例如,比较在 Infobright 社区版中检索一半可用用户(最终返回 500 mb 数据)的查询在一分钟内完成,而 Solr 则需要 12 分钟。
除了 Solr 之外,还有什么更适合查询这些数据的吗?是否有任何有助于批量数据输入和输出的优化?