cassandra - dsbulk 卸载丢失的数据

Question

我正在使用dsbulk1.6.0 从cassandra3.11.3 卸载数据。

每次卸载都会导致截然不同的行数。这是在同一个集群上连接到同一个 cassandra 主机的 3 次卸载调用的结果。被卸载的表只会被追加，数据永远不会被删除，所以卸载的行数不会减少。集群中有 3 个 cassandra 数据库，复制因子为 3，因此所有数据都应存在于所选主机上。此外，这些都是快速连续执行的，添加的行数将是数百（如果有的话）而不是数万。

运行 1：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 10,937 | 7 | 97 | 15,935.46 | 20,937.97 | 20,937.97
│ 操作 UNLOAD_20201024-084213-097267 在 1 分 51 秒内完成了 7 个错误。

运行 2：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 60,558 | 3 | 266 | 12,551.34 | 21,609.05 | 21,609.05
│ 操作 UNLOAD_20201025-084208-749105 在 3 分 47 秒内完成了 3 个错误。

运行 3：

│ 总计 | 失败 | 行/秒 | p50ms | p99ms | p999ms
│ 45,404 | 4 | 211 | 16,664.92 | 30,870.08 | 30,870.08
│ 操作 UNLOAD_20201026-084206-791305 在 3 分 35 秒内完成 4 个错误。

似乎Run 1缺少大部分数据。Run 2可能更接近完成并且Run 3缺少重要数据。

我调用卸载如下：

dsbulk unload -h $CASSANDRA_IP -k $KEYSPACE -t $CASSANDRA_TABLE > $DATA_FILE

我假设这不是dsbulk. 如何配置它以可靠地卸载完整的表而不会出错？

score 3 · Accepted Answer

如果在写入数据时主机无法访问，并且没有重播提示，并且您没有定期运行修复，则主机可能会丢失数据。并且因为 DSBulk 默认读取一致性级别LOCAL_ONE，不同的主机会提供不同的视图（你提供的主机只是一个接触点——之后会发现集群拓扑，DSBulk 会根据负载均衡策略选择副本）。

您可以使用-cl命令行选项 ( doc ) 强制 DSBulk 以另一个一致性级别读取数据。您可以使用LOCAL_QUORUMor比较结果ALL- 在这些模式下，Cassandra 还将“修复”发现的不一致性，尽管这会慢得多，并且由于修复的数据写入会增加节点的负载。

cassandra - dsbulk 卸载丢失的数据

1 回答 1

Related

Reference