1

我有一个表,它使用字母数字、数字、点、下划线和方括号 [] 保存 300K 字符串记录。

我使用对 sqlite3 的 FTS5 扩展来启用对该表的快速搜索。这就是我创建 FTS 虚拟表的方式:

database = sqlite3.connect("mydb.db")
db_cursor = database.cursor()
db_cursor.execute("create virtual table field_names USING fts5 (full_path)")

我在循环中使用以下代码添加〜300K记录:

database.execute("insert into field_names(full_path) values (?)", (field_path,))

样本记录:

a.extbootrecord.field_db0    
a.extbootrecord.field_db1    
a.extbootrecord.field_db8    
a.extbootrecord.field_db9    
a.extbootrecord.field_db10   
a.extbootrecord.field_db11   
a.extbootrecord.field_db12   
a.extbootrecord.field_db15   

使用以下查询:

db_cursor.execute("select full_path from field_names where field_names = '\"%s\"'" % search_phrase)
return_list = list()

entries = db_cursor.fetchmany(100)
while entries:
    return_list.extend([entry[0] for entry in entries])
    entries = db_cursor.fetchmany(100)

与以下search_phrase产生以下:

  1. ext : 没有什么
  2. extbootrecord : 所有记录
  3. extbootrecrd. : 所有记录
  4. extbootrecord.fie : 没有什么
  5. extbootrecord.field : 所有记录
  6. extbootrecord.field_db1: 只有a.extbootrecord.field_db1记录,我希望 field_db1, field_db10, field_db11... 被返回

似乎我缺少一些要使用的 FTS 配置._以及0-9作为令牌一部分的有效字符。

我尝试tokenize = \"unicode61 tokenchars '_.'\"在创建语句中配置 FTS 标记器,但没有运气。

我错过了什么?

4

3 回答 3

3

这是一个完整的示例,可以说明如何tokenchars工作,因为我认为语法相当微妙且容易出错。

让我们首先在 shell 中创建一个测试环境:

$ sqlite3 ":memory:"

现在让我们创建一个fts5 表,该表将允许该句点:

sqlite> CREATE VIRTUAL TABLE IF NOT EXISTS foo USING fts5(name UNINDEXED, keywords, tokenize="unicode61 tokenchars '.'");

注意tokenize值是如何设置的,你用双引号括住tokenchars你想添加的值和单引号(我们只是在这里添加句点,但你可以添加任意数量的字符)。

随着我们的表格准备就绪,我们准备插入一些值:

sqlite> INSERT INTO foo (name, keywords) VALUES ('bar', '1.0');
sqlite> INSERT INTO foo (name, keywords) VALUES ('che', '1.5');
sqlite> INSERT INTO foo (name, keywords) VALUES ('baz', '2.5');

并搜索这些值:

sqlite> SELECT name from foo WHERE keywords MATCH '"1."*';
bar
che
sqlite> SELECT name from foo WHERE keywords MATCH '"1.5"*';
che
sqlite> SELECT name from foo WHERE keywords MATCH '"2"*';
baz 

请注意,如果我们的搜索字符串中有句点,我们必须如何搜索值,我们必须将搜索字符串用双引号括起来(如果我们想要进行前缀搜索,则在这些双引号之外添加星号),然后像往常一样将整个字符串用单引号括起来。

如果我们不使用双引号:

sqlite> SELECT name from foo WHERE keywords MATCH '1.*';
Error: fts5: syntax error near "."

或者我们错误地使用了双引号:

sqlite> SELECT count(*) from foo WHERE keywords MATCH '1"."*';
0

然后我们会得到模糊的无用错误和意想不到的结果,这将导致我们搜索互联网试图找出我们做错了什么并偶然发现这个问题:)

于 2018-10-03T21:14:26.313 回答
0

使用 FTS4 它可以使用“。” 搜索

于 2019-03-18T16:59:27.610 回答
0

刚刚在不同的平台上遇到了同样的问题。这种语法对我有用:

tokenize=unicode61 \"tokenchars=_.\"
于 2018-05-14T23:56:49.383 回答