我已经预先计算了一些相似性(大约 7000 万个),并希望找到一首曲目与所有其他曲目的相似之处。我只需要相似度最高的前 100 首曲目。对于我的计算,我使用不同的轨道作为输入进行了大约 15'000 次此查询。机器启动后,所有 15k 查询的计算需要超过 600 秒。经过几次运行,mysql 已经 - 我认为 - 缓存了索引,因此完整的运行需要大约 15 秒。我唯一担心的是:我有一个非常高的“Handler_read_rnd_nextDokumentation”值。
我有一个具有这种结构的 MySQL 表:
CREATE TABLE `similarity` (
`similarityID` int(11) NOT NULL AUTO_INCREMENT,
`trackID1` int(11) NOT NULL,
`trackID2` int(11) NOT NULL,
`tracksim` double DEFAULT NULL,
`timesim` double DEFAULT NULL,
`tagsim` double DEFAULT NULL,
`simsum` double DEFAULT NULL,
PRIMARY KEY (`similarityID`),
UNIQUE KEY `trackID1` (`trackID1`,`trackID2`),
KEY `trackID1sum` (`trackID1`,`simsum`),
KEY `trackID2sum` (`trackID2`,`simsum`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
我想对此做很多查询。查询如下所示:
// simsum is a sum over tracksim, timesim, tagsim
(
SELECT similarityID, trackID2, tracksim, timesim, tagsim, simsum
FROM similarity
WHERE trackID1 = 512
ORDER BY simsum DESC
LIMIT 0,100
)
UNION
(
SELECT similarityID, trackID1, tracksim, timesim, tagsim, simsum
FROM similarity
WHERE trackID2 = 512
ORDER BY simsum DESC
LIMIT 0,100
)
ORDER BY simsum DESC
LIMIT 0,100
查询速度非常快,不到 0.1 秒(上一个问题),但我担心状态页面中的数字非常大。我以为我已经设置了我在查询中使用的每个索引。
Handler_read_rndDokumentation 88,0 M
Handler_read_rnd_nextDokumentation 20,0 G
有什么问题吗”?我可以更快地得到查询吗?我需要担心20G吗?
提前致谢