0

数据税-企业

数据税启动

我们正在使用 DataStax DSE 集群。

我们正在尝试将表迁移到与第一个表具有相同定义但具有二级索引的另一个表

它有大约 170 万行

1)我们首先使用 cqlsh 中的 Cassandra COPY 命令。这需要很长时间 > 1 小时。超时,不起作用 2) 然后我们编写一个程序将第一个表导出到 CSV 文件。我们将此 CSV 文件分解为单独的 CSV 文件,并尝试将其加载到第二个表中。

插入需要一些时间,但它失败了

3)我们正在调查http://www.datastax.com/dev/blog/using-the-cassandra-bulk-loader-updated

由于我们有 CSV 文件,这是正确的方法吗?

我们正在使用这个库https://github.com/yukim/cassandra-bulkload-example来生成 SSTABLE。

这是处理这个问题的正确方法吗?

4

1 回答 1

1

如果您有 csv,我建议您使用此批量加载程序:

https://github.com/brianmhess/cassandra-loader

如果您在集群上启用了 Spark 分析:

sc.cassandraTable("ks1","table").saveToCassandra("ks2","table")

也可以看看:

http://docs.datastax.com/en/latest-dse/datastax_enterprise/migration/migratingBulkSparkRDD.html

于 2016-04-12T20:04:10.863 回答