26

我正在尝试使用 MySQL 的 FULLTEXT 索引为我的 PHP Web 应用程序添加搜索支持。

我创建了一个测试表(使用 MyISAM 类型,带有单个文本字段a)并输入了一些示例数据。现在,如果我是对的,下面的查询应该返回这两行:

SELECT * FROM test WHERE MATCH(a) AGAINST('databases')

但是它没有返回。我做了一些研究,据我所知,我做的一切都是正确的——该表是一个 MyISAM 表,已设置 FULLTEXT 索引。我尝试从提示符和 phpMyAdmin 运行查询,但没有成功。我错过了一些重要的东西吗?


更新:好的,虽然 Cody 的解决方案适用于我的测试用例,但它似乎不适用于我的实际表:

CREATE TABLE IF NOT EXISTS `uploads` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` text NOT NULL,
  `size` int(11) NOT NULL,
  `type` text NOT NULL,
  `alias` text NOT NULL,
  `md5sum` text NOT NULL,
  `uploaded` datetime NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM  DEFAULT CHARSET=latin1 AUTO_INCREMENT=6 ;

我正在使用的数据:

INSERT INTO `uploads` (`id`, `name`, `size`, `type`, `alias`, `md5sum`, `uploaded`) VALUES
(1, '04 Sickman.mp3', 5261182, 'audio/mp3', '1', 'df2eb6a360fbfa8e0c9893aadc2289de', '2009-07-14 16:08:02'),
(2, '07 Dirt.mp3', 5056435, 'audio/mp3', '2', 'edcb873a75c94b5d0368681e4bd9ca41', '2009-07-14 16:08:08'),
(3, 'header_bg2.png', 16765, 'image/png', '3', '5bc5cb5c45c7fa329dc881a8476a2af6', '2009-07-14 16:08:30'),
(4, 'page_top_right2.png', 5299, 'image/png', '4', '53ea39f826b7c7aeba11060c0d8f4e81', '2009-07-14 16:08:37'),
(5, 'todo.txt', 392, 'text/plain', '5', '7ee46db77d1b98b145c9a95444d8dc67', '2009-07-14 16:08:46');

我现在运行的查询是:

SELECT * FROM `uploads` WHERE MATCH(name) AGAINST ('header' IN BOOLEAN MODE)

应该返回第 3 行 header_bg2.png。相反,我得到另一个空结果集。我的布尔搜索选项如下:

mysql> show variables like 'ft_%';
+--------------------------+----------------+
| Variable_name            | Value          |
+--------------------------+----------------+
| ft_boolean_syntax        | + -><()~*:""&| |
| ft_max_word_len          | 84             |
| ft_min_word_len          | 4              |
| ft_query_expansion_limit | 20             |
| ft_stopword_file         | (built-in)     |
+--------------------------+----------------+
5 rows in set (0.02 sec)

“标题”在字长限制内,我怀疑它是一个停用词(我不确定如何获取列表)。有任何想法吗?

4

2 回答 2

50

添加更多数据。默认情况下,MySQL 将忽略表中 50% 或更多行中的任何单词,因为它认为这是一个“噪音”单词。

由于表中的行很少,通常会经常达到这个 50% 的限制(即,如果您有两行,则每个单词都在至少 50% 的行中!)。

于 2009-07-14T14:29:40.700 回答
25

MySQL全文搜索有两种模式:自然语言模式和布尔模式。自然语言模式的限制是“......出现在 50% 或更多行中的单词被认为是常见的并且不匹配。如果没有给出修饰符,则全文搜索是自然语言搜索。” 自然语言是默认模式。这记录在全文文档中:

http://dev.mysql.com/doc/refman/5.0/en/fulltext-search.html

如果您将查询切换为使用布尔模式:

SELECT * FROM test WHERE MATCH(a) AGAINST('databases' IN BOOLEAN MODE)

然后返回两行。

布尔模式有其自身的限制,一个常见的限制是它不按相关顺序返回其行。总体而言,它确实提供了比自然语言模式更多的功能和灵活性,因此您可能最终会使用它。

如果您的应用程序将严重依赖全文搜索,您可能需要考虑更多功能齐全的软件包,例如Lucene/SolrSphinx

于 2009-07-14T14:28:11.013 回答