前言:
这个问题并不是要求对 Elastic Search 与 Solr 与 Datastax Solr (Datastax EE) 进行开放式比较。(尽管欢迎评论部分中的链接)。
项目:
我一直在构建域名类型的 Web 服务。在这样做的过程中,我意识到这种服务的指数级增长。
背景:
我想知道哪个特定的搜索平台可以让我无限地保存和扩展。是的,我意识到这些天你可以拆分一个 Solr Shard——所以如果我有一个 20 个 shard 的 solr 云,我以后可以将它们拆分成 40 个(我认为?再次......这不是不确定的)。不确定在弹性搜索方面。由于 Cassandra 的架构,Datastax (EE) 似乎是答案,但是 (A) 因为他们没有提供许可证价格的透明度——我必须披露我的收入对他们来说,我很快就想起了甲骨文的“让你慢慢流血”的策略,在我刚起步时,这是一个巨大的威慑。另外,(B) 当他们说他们将完整的 MapReduce 与 Hive、Sqop、Mahout、Solr 和 Pig 集成在一起时——我想我不想花一生的时间来学习那些不适用于我的项目的花里胡哨。我想要一个搜索平台,我可以在一个月内无限期地添加 20 亿个文档(或任何数量),而不必担心我启动的集群前期分片太少。
问题:
诚然,我的背景部分被盗用了我想纠正的无知。我的目的不是冒犯或淡化这些惊人的技术。我只是想知道它们中的哪些可以扩展而不必担心碎片过度增长[我在这里永远删除了这个词——谢谢你在下面的评论]。或者可以吗?不是硬件方面的,而是碎片。我可以使用哪个平台,而不必担心未来的增长是 20TB 还是 2PB。假设服务器、交换机等的硬件预算是不确定的。