cassandra - 火花连接器加载与 sstableloader 性能

Question

我有一个 spark 作业，现在从 HDFS 中提取数据并将数据转换为平面文件以加载到 Cassandra。

cassandra 表本质上是 3 列，但最后两列是地图集合，因此是一个“复杂”的数据结构。

现在我使用 COPY 命令并获得大约 3k 行/秒的负载，但考虑到我需要加载大约 5000 万条记录，这非常慢。

我看到我可以将 CSV 文件转换为 sstables，但我没有看到涉及地图集合和/或列表的示例。

我可以使用 spark 连接器到 cassandra 来加载带有地图集合和列表的数据，并获得比 COPY 命令更好的性能吗？

score 1 · Accepted Answer

是的，对于已经在 HDFS 中的文件，Spark Cassandra 连接器可以快得多。使用 spark，您将能够分布式抓取并写入 C*。

即使没有 Spark，使用基于 Java 的加载器（如https://github.com/brianmhess/cassandra-loader）也会显着提高速度。

1 回答 1