我有一个keywords
带有列keyword
和的表weight
。我的目标是随机选择一个keyword
,但要考虑它的weight
(概率)。我找到了两种方法来解决这个问题,后一种更优雅(并且消耗更少的资源) - 但我没有让它运行。见自己。
表和记录:
CREATE TABLE IF NOT EXISTS `keywords` (
`keyword` varchar(100) COLLATE utf8_bin NOT NULL,
`weight` int(11) NOT NULL,
UNIQUE KEY `keywords` (`keyword`),
KEY `rate` (`weight`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
INSERT INTO `keywords` (`keyword`, `weight`) VALUES
('google', 50),
('microsoft', 20),
('apple', 10),
('yahoo', 5),
('bing', 5),
('xing', 5),
('cool', 5);
查询 1
消耗更多资源,我处理 5k+ 记录。来源是为什么这个使用 rand() 的 MySQL 查询大约有三分之一的时间没有返回结果?:
SELECT * FROM `keywords` ORDER BY -LOG(1.0 - RAND()) / weight LIMIT 1
查询 2
将权重汇总为@weight_sum
。设置@weight_point
为该RAND()
范围内的数字。循环遍历所有记录,减去并设置weight
为当前的. 直到. 然后它保持那个。源是T-SQL 中的随机加权选择@weight_pos
@keyword
keywords.keyword
@weight_pos < 0
keyword
SET @keyword = 0;
SET @weight_sum = (SELECT SUM(weight) FROM keywords);
SET @rand = RAND();
SET @weight_point = ROUND(((@weight_sum - 1) * @rand + 1), 0);
SET @weight_pos = @weight_point;
SELECT
keyword,
weight,
@keyword:=CASE
WHEN @weight_pos < 0 THEN @keyword
ELSE keyword
END AS test,
(@weight_pos:=(@weight_pos - weight)) AS curr_weight,
@weight_point,
@keyword,
@weight_pos,
@rand,
@weight_sum
FROM
keywords;
在此处查看 phpmyadmin 结果http://postimg.org/image/stgpd776f/
我的问题
我如何获得 中的值@keyword
,或者该test
列最终包含什么?事后添加SELECT @keyword
不会改变任何东西。