1

我的数据库是Cassandra(datastax 企业 => linux)。由于它不支持分组、聚合等进行报告,根据其基本原理,使用 Cassandra 并不是一个好的决定,彻头彻尾。我用谷歌搜索了这个赤字,发现了一些结果,这个这个,还有这个

但是我真的很迷茫!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark ......它对分析很有用,但是,我不明白它最终是否使用 Hadoop。

我会有很多报告,至少需要索引和分组。但我不想使用会增加开销的额外表。而且,我是 .Net(而不是 Java)开发人员,我的应用程序也是基于.Net Framework的。

4

1 回答 1

1

我不确定你的问题是什么,你的困惑是可以理解的,因为 Cassandra 和 DSE 发生了很多事情。

  • 您说 Cassandra 不支持您希望用于报告的任何聚合或分组功能是正确的。
  • Solr(DSE 搜索)用于对存储在 Cassandra 中的数据进行临时和全文搜索。这一次只适用于一个表。
  • Spark (DSE Analytics) 提供分析功能,例如 Map-Reduce 以及过滤和连接表的功能。这不是实时完成的,因为数据的处理和混洗可能会很昂贵,具体取决于数据负载。
  • Spark 不使用 Hadoop。它执行许多相同的工作,但在许多情况下效率更高,因为它允许对数据进行内存分布式处理。

由于您使用的是 DataStax Enterprise,因此优势在于您已内置连接器到 Solr(DSE 搜索)以提供临时查询和 Spark(DSE 分析)以提供数据分析。

由于我不知道您的确切报告要求,因此很难给您具体的建议。如果您可以提供有关您将运行哪种报告(计划与临时等)的更多详细信息,我可能会为您提供更多帮助。

于 2016-03-09T13:26:47.003 回答