我有一个 spark 作业,现在从 HDFS 中提取数据并将数据转换为平面文件以加载到 Cassandra。
cassandra 表本质上是 3 列,但最后两列是地图集合,因此是一个“复杂”的数据结构。
现在我使用 COPY 命令并获得大约 3k 行/秒的负载,但考虑到我需要加载大约 5000 万条记录,这非常慢。
我看到我可以将 CSV 文件转换为 sstables,但我没有看到涉及地图集合和/或列表的示例。
我可以使用 spark 连接器到 cassandra 来加载带有地图集合和列表的数据,并获得比 COPY 命令更好的性能吗?