我们使用 Cassandra 作为我们应用程序的主要数据存储,该应用程序收集大量数据并需要大量存储空间和非常快的写入吞吐量。
我们计划定期提取这些数据并加载到关系数据库(如 mySQL)中。存在哪些提取机制可以扩展到每天数亿条记录?昂贵的第三方 ETL 工具(如 Informatica)不适合我们。到目前为止,我的网络搜索只显示了带有 Pig 或 Hive 作为选项的 Hadoop。然而,作为这个领域的新手,我不确定它们的扩展能力如何,以及它们在运行时会给 Cassandra 集群本身带来多少负载?还有其他选择吗?