cassandra - cassandra 按二级索引搜索一行返回 null

Question

我创建了一个表和索引如下

创建表 refresh_token (
    user_id bigint，
    refresh_token 文本，
    access_token 文本，
    device_desc 文本，
    device_type 文本，
    expire_time 时间戳，
    org_id bigint，
    主键 (user_id, refresh_token)
) 具有聚类顺序 (refresh_token ASC)
在 demodb.refresh_token (access_token) 上创建索引 i_access_token；

在我插入或删除数百万次数据后。我发现当我使用后续查询时无法返回任何数据。实际上，数据中有这一行。

当我通过 PRIMARY KEY 查询时

select * from refresh_token where user_id=405198 and refresh_token='E82B57D9D64BECDBD6B5602A72816BD19016323504F803116F66A32598E04298';

它返回数据：

select * from refresh_token where user_id=405198 and refresh_token='E82B57D9D64BECDBD6B5602A72816BD19016323504F803116F66A32598E04298';

 用户 ID | 刷新令牌 | 访问令牌 | device_desc | 设备类型 | 过期时间 | org_id
---------+---------------------------------------- --------------------------+------------------------ --------------------------------------------+------ --------+--------------+--------------+- -------------
  405198 | E82B57D9D64BECDBD6B5602A72816BD19016323504F803116F66A32598E04298 | E82B57D9D64BECDB16D4F3F9F81AC0EF7AF2C4B460CB0F33C9CEFA5846BA7BE1 | 空 | 空 | 2016-06-07 14:09:52+0800 | 481036337156

但是当我通过二级索引查询时，它返回null。

select * from refresh_token where access_token ='E82B57D9D64BECDB16D4F3F9F81AC0EF7AF2C4B460CB0F33C9CEFA5846BA7BE1';

 用户 ID | 刷新令牌 | 访问令牌 | device_desc | 设备类型 | 过期时间 | org_id
---------+---------------+--------------+--------- ----+-------------+-------------+--------

谢谢

score 1 · Accepted Answer

仅对基数较低的字段建议使用二级索引。您的 access_token 字段看起来具有非常高的基数（甚至可能对所有百万行都是唯一的）。这是 Cassandra 中已知的反模式。

高基数字段适用于分区键之类的东西，因为它们将散列到已知位置。但是二级索引不是散列的，而是通过每个节点上的本地数据结构找到的。当索引很多不同的值时，这些本地数据结构变得繁琐且效率低下。我怀疑您在匹配 access_token 的节点在大海捞针之前遇到了内部超时。

如果您需要通过 access_token 查找数据，我建议创建第二个表，其中 access_token 是分区键，并使用它来查找相应的 user_id 和 refresh_token。这样，您将使用 access_token 作为哈希，并获得可靠和快速的查找。

cassandra - cassandra 按二级索引搜索一行返回 null

1 回答 1

Related

Reference