我有一个全文 MySQL 查询,它工作得很好——除了在某些情况下我最终得到重复结果的事实。我有几种类型的数据要尝试搜索:建筑物、套房、资产等,每一种都在自己的表中。每种类型的数据还可以具有用户定义的自定义字段,其数据存储在不同的表中。这是我的结构。
CREATE TABLE `buildings` (
`bid` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(250) COLLATE utf8_unicode_ci NOT NULL,
`status` enum('active','inactive') COLLATE utf8_unicode_ci NOT NULL,
`source` enum('feed','manual') COLLATE utf8_unicode_ci NOT NULL,
PRIMARY KEY (`bid`),
FULLTEXT KEY `textsearch` (`name`)
)
CREATE TABLE `customfields` (
`cfid` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(250) COLLATE utf8_unicode_ci NOT NULL,
`datatype` enum('integer','date','smtext','lgtext','numeric','enum','linked') COLLATE utf8_unicode_ci NOT NULL,
`options` longtext COLLATE utf8_unicode_ci,
`did` int(11) NOT NULL COMMENT 'Datasheet ID',
PRIMARY KEY (`cfid`),
KEY `did` (`did`)
)
CREATE TABLE `customfield_data` (
`cfdid` int(11) NOT NULL AUTO_INCREMENT,
`data_int` int(11) DEFAULT NULL,
`data_date` datetime DEFAULT NULL,
`data_smtext` varchar(1000) COLLATE utf8_unicode_ci DEFAULT NULL,
`data_lgtext` longtext COLLATE utf8_unicode_ci,
`data_numeric` decimal(20,2) DEFAULT NULL,
`linkid` int(11) DEFAULT NULL COMMENT 'ID value of specific item',
`cfid` int(11) NOT NULL COMMENT 'Custom field ID',
PRIMARY KEY (`cfdid`),
KEY `data_smtext` (`data_smtext`(333)),
KEY `linkid` (`linkid`),
KEY `cfid` (`cfid`),
FULLTEXT KEY `textsearch` (`data_smtext`,`data_lgtext`)
)
如此有效,建筑物可以有一个自定义字段,将其实际数据存储在 customfield_data 中。自定义字段通过 did(数据集 ID)标识为特定于建筑物的字段。然后,cfid 字段将 customfield_data 链接到 customfield,并且数据通过 linkid 字段链接到特定建筑物。
考虑到这一点,这是我的全文查询:
SELECT * FROM (
SELECT (data_smtext + data_lgtext) AS data, linkid AS idvalue, did, MATCH(data_smtext, data_lgtext) AGAINST (?) AS relevance
FROM customfield_data
JOIN customfields ON customfield_data.cfid = customfields.cfid
WHERE MATCH (data_smtext, data_lgtext) AGAINST (? IN BOOLEAN MODE)
UNION
SELECT name AS data, bid AS idvalue, 2 AS did, 3 * (MATCH(name) AGAINST (?)) AS relevance
FROM buildings
WHERE status = ? AND MATCH (name) AGAINST (? IN BOOLEAN MODE)
UNION
SELECT name AS data, bid AS idvalue, 2 AS did, 100 AS relevance
FROM buildings
WHERE bid LIKE ? AND status = ?
UNION
)
AS searchresults
WHERE relevance > 0
ORDER BY relevance DESC
正如我之前提到的,这一切都很好。我遇到的问题是,例如,如果一座建筑物被命名为123 North Ave Tower,并且它的地址(自定义字段)为 123 North Ave,那么我会得到重复的记录——一个用于名称,一个用于如果我搜索“123 North Ave”的地址。
它们都指向相同的 did(数据集 ID)和 linkid(在这种情况下为建筑物 ID),所以我知道我可以通过循环遍历 PHP 中的结果数组、查找匹配项并丢弃重复项来解决我的问题. 但这会给我的表现带来打击,也会降低相关性评分的有效性。理想情况下,我希望能够让查询将地址匹配的相关性添加到名称/ID 匹配的相关性中,以便给我一个更准确的分数。现在,我将名称匹配乘以 3 倍,并将自定义字段匹配保留为 1 倍,以便更重地加权更准确的匹配,但将两者相加将是最佳选择。
感谢任何可以为我指明正确方向的人!