背景
我正在利用其出色的内置FTS4引擎对存储在 SQLite 中的电子邮件正文实施全文搜索。我得到了一些相当糟糕的查询性能,尽管并不完全符合我的预期。让我们来看看。
代表模式
我将给出一些相关代码的简化示例,并在适用的情况下提供完整代码的链接。
我们有一个MessageTable
存储有关电子邮件信息的数据(完整版本分布在此处、此处和此处的多个文件中):
CREATE TABLE MessageTable (
id INTEGER PRIMARY KEY,
internaldate_time_t INTEGER
);
CREATE INDEX MessageTableInternalDateTimeTIndex
ON MessageTable(internaldate_time_t);
可搜索的文本被添加到名为MessageSearchTable
(完整版在这里)的 FTS4 表中:
CREATE VIRTUAL TABLE MessageSearchTable USING fts4(
id INTEGER PRIMARY KEY,
body
);
搜索表id
中的 充当消息表的外键。
我将把它作为练习留给读者将数据插入这些表中(我当然不能提供我的私人电子邮件)。我在每个表中只有不到 26k 条记录。
问题查询
当我们检索搜索结果时,我们需要它们按降序排列,internaldate_time_t
这样我们就可以只提取最近的几个结果。这是一个示例搜索查询(此处为完整版):
SELECT id
FROM MessageSearchTable
JOIN MessageTable USING (id)
WHERE MessageSearchTable MATCH 'a'
ORDER BY internaldate_time_t DESC
LIMIT 10 OFFSET 0
在我的机器上,我的电子邮件在大约 150 毫秒内运行,通过以下方式测量:
time sqlite3 test.db <<<"..." > /dev/null
150 毫秒并不是一个查询的野兽,但对于简单的 FTS 查找和索引顺序来说,它是缓慢的。例如,如果我省略ORDER BY
,它将在 10 毫秒内完成。还要记住,实际查询还有一个子选择,所以一般来说还有一些工作要做:查询的完整版本在大约 600 毫秒内运行,这是野兽领域,ORDER BY
在这种情况下省略将时间缩短 500 毫秒。
如果我打开内部统计信息sqlite3
并运行查询,我会注意到以下行:
Sort Operations: 1
如果我对有关这些统计信息的文档的解释是正确的,那么查询似乎完全跳过了使用MessageTableInternalDateTimeTIndex
. 完整版的查询也有这行:
Fullscan Steps: 25824
听起来它正在某个地方走桌子,但现在让我们忽略它。
我发现了什么
因此,让我们稍微优化一下。我可以将查询重新排列为子选择并强制 SQLite 使用带有INDEXED BY
扩展名的索引:
SELECT id
FROM MessageTable
INDEXED BY MessageTableInternalDateTimeTIndex
WHERE id IN (
SELECT id
FROM MessageSearchTable
WHERE MessageSearchTable MATCH 'a'
)
ORDER BY internaldate_time_t DESC
LIMIT 10 OFFSET 0
瞧,运行时间已经下降到大约 100 毫秒(查询的完整版本为 300 毫秒,运行时间减少了 50%),并且没有报告任何排序操作。请注意,仅像这样重新组织查询但不强制使用 索引INDEXED BY
,仍然有一个排序操作(尽管我们仍然奇怪地减少了几毫秒),所以看起来 SQLite 确实忽略了我们的索引,除非我们强制它.
我还尝试了其他一些方法,看看它们是否会有所作为,但它们没有:
- 显式地按照此处
DESC
描述的方式创建索引,无论有无INDEXED BY
- 在索引中显式添加
id
列,有和没有internaldate_time_t
排序DESC
,有和没有INDEXED BY
- 可能还有其他几件事我现在不记得了
问题
这里的 100 毫秒似乎仍然非常慢,因为它看起来应该是一个简单的 FTS 查找和索引顺序。
- 这里发生了什么?除非你强迫它,否则它为什么会忽略明显的索引?
- 我在合并虚拟表和常规表中的数据时遇到了一些限制吗?
- 为什么它仍然相对较慢,我还能做些什么来让 FTS 匹配按另一个表中的字段排序?
谢谢!