sql - 具有整数时间戳的 Json 数据的理想 Postgres 索引

Question

我使用 Amazon Aurora Postgres 10.7 在此表中有数百万条记录：

create table "somedb"."sometable"
(
    id varchar(4096) not null constraint "sometable_pkey" primary key,
    tag varchar(255) not null,
    json jsonb not null
);

示例行：

{"id": "abc", "ts": 1580879910, "data": "my stuff"}

我有这些需要几十秒的查询：

SELECT jsonData->'data'
WHERE (jsonData->>'ts' >= '1576000473')
ORDER BY jsonData->>'ts' ASC LIMIT 100 OFFSET 50000;

我在这里尝试提高性能，这些都是我尝试过的所有索引，但最多我在查询计划中得到一个INDEX SCAN。

create index "sometable_ts"
on "somedb"."sometable" ((jsondata -> 'ts'::text));

create index "sometable_ts-int" 
on "somedb"."sometable" using btree (((jsondata ->> 'ts')::integer));

我也将查询调整为：ORDER BY (jsonData->>'ts')::integer，但没有。

最佳方案：

Limit  (cost=613080.18..613149.46 rows=100 width=356) (actual time=24934.492..24937.344 rows=100 loops=1)
    ->  Index Scan using "sometable_ts-int" on "sometable"  (cost=0.43..3891408.61 rows=5616736 width=356) (actual time=0.068..24889.459 rows=885000 loops=1)
        Index Cond: (((jsondata ->> 'ts'::text))::integer >= 1576000473)
Planning time: 0.145 ms
Execution time: 24937.381 ms

谁能推荐一种方法来调整索引或查询以使它们变得更快？谢谢！

score 1 · Accepted Answer

OFFSET像这样使用总是会导致性能不佳。

您应该使用键集分页：

创建此索引：

CREATE INDEX ON somedb.sometable (id, (jsonData->>'ts'));

然后，要分页，您的第一个查询是：

SELECT jsonData->'data'
FROM somedb.sometable
WHERE jsonData->>'ts' >= '1576000473'
ORDER BY jsonData->>'ts', id
LIMIT 100;

记住jsonData->>'ts'和id从你进入的最后一个结果行last_ts和last_id。

您的下一页与

SELECT jsonData->'data'
FROM somedb.sometable
WHERE (jsonData->>'ts', id) > (last_ts, last_id)
ORDER BY jsonData->>'ts', id
LIMIT 100;

像这样继续下去，检索第 500 页将与检索第一页一样快。

sql - 具有整数时间戳的 Json 数据的理想 Postgres 索引

1 回答 1

Related

Reference