我在由 3 个节点组成的集群中运行 Datastax Enterprise。它们都在相同的硬件下运行:2 核 Intel Xeon 2.2 Ghz、7 GB RAM、4 TB Raid-0
这应该足以运行一个轻负载的集群,存储少于 1 GB 的数据。
大多数情况下,一切都很好,但有时与 OpsCenter 中的修复服务相关的运行任务有时会卡住;这会导致该节点不稳定并增加负载。
但是,如果节点重新启动,卡住的任务不会出现,负载会再次处于正常水平。
由于我们的集群中没有太多数据,我们使用 中min_repair_time
定义的参数opscenterd.conf
来延迟修复服务,使其不会过于频繁地完成。
标记为“完成”并显示进度为 100% 的任务并没有消失,这似乎有点奇怪,是的,我们已经等了好几个小时才让它们消失,但它们不会吨;我们发现解决此问题的唯一方法是重新启动节点。
编辑:
这是来自的输出nodetool compactionstats
编辑2:
我在 Datastax Enterprise v. 4.6.0 和 Cassandra v. 2.0.11.83 下运行
编辑3:
这是从dstat
行为正常的节点上输出的
这是从dstat
带有卡住压实的节点上的输出
编辑4:
来自iostat
节点上的输出与卡住压实,请参阅高“iowait”