1

我正在使用 cassandra 2.0.6。并有这张桌子:

CREATE TABLE t (
    id text,
    idx bigint,
    data bigint,
    PRIMARY KEY (id, idx)
)

所以说我得到了这些行:

id / idx / data
x    1     data1
x    2     data2
x    3     data3

....继续说 1000 行 x

如果我查询:

select * from t where id='x' order by idx limit 1

cassandra 会获取所有 1000 行,还是只获取其中的一小部分?

阅读诸如http://www.ebaytechblog.com/2012/08/14/cassandra-data-modeling-best-practices-part-2/#.UzrvLKZx2PI之类的文章,似乎它只会获取其中的一小部分。但是运行一些压力测试并且我在表中拥有的数据越多,我得到的 MB/sec 磁盘 IO 就越多。

对于 8GB 数据,我获得 3MB/秒 IO(读取) 对于 12GB 数据,我获得 15MB/秒 IO(读取) 对于 20GB 数据,我目前获得 35MB/秒 IO(读取)

我在 cfhistograms 中没有看到任何奇怪的东西:

SSTables per Read
1 sstables: 421010
2 sstables: 552
3 sstables: 9
4 sstables: 0
5 sstables: 254
6 sstables: 3221
7 sstables: 3063
8 sstables: 1029
10 sstables: 143

Read Latency (microseconds)
12 us: 6
14 us: 36
17 us: 471
20 us: 2795
24 us: 10799
29 us: 18594
35 us: 24693
42 us: 43078
50 us: 67438
60 us: 68872
72 us: 70718
86 us: 47300
103 us: 23471
124 us: 11752
149 us: 4509
179 us: 1437
215 us: 832
258 us: 3444
310 us: 7883
372 us: 2374
446 us: 736
535 us: 624
642 us: 581
770 us: 1875
924 us: 1715
1109 us: 2889
1331 us: 3705
1597 us: 2197
1916 us: 1320
2299 us: 826
2759 us: 639
3311 us: 431
3973 us: 312
4768 us: 213
5722 us: 106
6866 us: 72
8239 us: 44
9887 us: 36
11864 us: 25
14237 us: 16
17084 us: 23
20501 us: 20
24601 us: 15
29521 us: 28
35425 us: 21
42510 us: 20
51012 us: 49
61214 us: 49
73457 us: 29
88148 us: 23
105778 us: 35
126934 us: 23
152321 us: 17
182785 us: 13
219342 us: 10
263210 us: 8
315852 us: 3
379022 us: 8
454826 us: 10
4

3 回答 3

1

我发现我实际上是不小心耗尽了结果集迭代器,修复了这个问题,现在 IO 是正常的。

于 2014-04-09T19:54:05.380 回答
1

当您即时订购和限制时,您将获得更多 I/O。如果您确定要获取数据的顺序,请在创建时对列族使用集群排序。

使用集群顺序创建表 tablename(.......) by (idx desc)

通过这种方式,默认情况下,您的所有插入都按 idx 降序排列。因此,当你对其应用限制时,你应该减少磁盘 I/O

于 2014-04-01T17:15:39.497 回答
1

一旦你完成了聚类订单,你的订购时间就被保存下来了。如果您面临大量数据的问题,那将是由于使用了压缩策略。我觉得您在读取重列族上使用了大小分层压缩策略。使用 Leveled compaction 策略尝试相同的场景。

当您使用大小分层压缩时,您会将数据分散到多个马厩中,并且每次都必须从所有数据中获取数据。因此,阅读繁重的列族对此并不好。

于 2014-04-02T02:35:24.860 回答