4

我创建了一个 Cassandra 列族,我需要为此列族从 CSV 文件加载数据。csv 文件有一个 15 Gb 的卷。

我正在使用 CQL 'COPY FROM' 命令,但这需要很长时间才能加载数据。从 csv 文件将大量数据加载到 Cassandra 的最佳/最简单方法是什么?

4

2 回答 2

6

CSV 文件的 CQLSH 内置副本非常简单,适用于中小型数据集。您没有提及您使用的是哪个 Cassandra 版本,但在 2.1.5 ( CASSANDRA-8225 ) 中进行了很多性能改进。

cassandra-loader是另一个对较大数据有良好效果的替代工具。您可以尝试使用文件的子集(如 1000 行)来确认它是否有效,然后尝试使用整个文件来查看性能。

于 2015-10-28T17:08:35.323 回答
4

使用稳定加载器。看看这篇博文。您需要将 CSV 文件解析为具有相同 C* 架构的 sstable,并将它们批量加载到 C* 中。

于 2015-10-28T17:31:08.033 回答