1

当我索引该字段并像上面的示例一样搜索其中包含“-”的字符串时,Arango 将其视为否定运算符,因此不搜索该字符串。搜索这些包含'-'的文档的解决方案是什么?

4

2 回答 2

1

编辑:我只是去看看源代码。从那里看起来,如果它是字符串中的第一个字符,'-' 应该只是一个问题。而且它不是您上面给出的示例中的第一个字符,所以我很困惑。

看起来没有任何方法可以转义“-”字符。另一个想法可能是在“-”前面加上一个“+”。你有没有尝试过:

collection.fulltext(attribute, "3da549f0+-0e88+-4297+-b6af+-5179b74bd929");

我从阅读文档中猜到,使用“前缀:”或“完整:”作为转义可能会起作用。

collection.fulltext(attribute, "complete:3da549f0-0e88-4297-b6af-5179b74bd929");

但显然它没有。

于 2016-04-20T08:35:21.863 回答
1

试图重现你所做的。如果您提供一个更好的可重现示例(仅使用 arangosh),我的回答可能会更准确:

http+tcp://127.0.0.1:8529@_system> db._create("testIndex")
http+tcp://127.0.0.1:8529@_system> db.testIndex.ensureIndex({type: "fulltext", fields: ["complete:3da549f0-0e88-4297-b6af-5179b74bd929"]})
{ 
  "fields" : [ 
    "complete:3da549f0-0e88-4297-b6af-5179b74bd929" 
  ], 
  "id" : "testIndex/4687162", 
  "minLength" : 2, 
  "sparse" : true, 
  "type" : "fulltext", 
  "unique" : false, 
  "isNewlyCreated" : true, 
  "code" : 201 
}

http+tcp://127.0.0.1:8529@_system> db.testIndex.save({'complete:3da549f0-0e88-4297-b6af-5179b74bd929': "find me"})
{ 
  "_id" : "testIndex/4687201", 
  "_key" : "4687201", 
  "_rev" : "4687201" 
}

http+tcp://127.0.0.1:8529@_system> db._query('FOR doc IN FULLTEXT(testIndex, "complete:3da549f0-0e88-4297-b6af-5179b74bd929", "find") RETURN doc')
[object ArangoQueryCursor, count: 1, hasMore: false]


[ 
  { 
    "_id" : "testIndex/4687201", 
    "_key" : "4687201", 
    "_rev" : "4687201", 
    "complete:3da549f0-0e88-4297-b6af-5179b74bd929" : "find me" 
  } 
]

所以用例看起来不同:

db.test2.save({id: 'complete:3da549f0-0e88-4297-b6af-5179b74bd929'})
db.test2.ensureIndex({type: "fulltext", fields: ["id"]})

db._query('FOR doc IN FULLTEXT(test2, "id", "3da549f0-0e88-4297-b6af-5179b74bd929") RETURN doc')

这将返回一个空结果。

要了解发生了什么,需要知道全文索引是如何工作的。它在单词边界处拆分文本并将其存储为一个列表,其中包含对索引中文档的引用。该索引全局词表中的一个词可能会引用多个文档。

一旦查询到索引,就会在索引全局词表中搜索请求的词,找到的每个词都将包含一个文档列表,其中包含这些词。这些桶被组合起来,并作为要迭代的文档的总列表返回。

为了更好地理解标记器,我添加了一个调用它的小型 js 包装器

让我们看看它对你的字符串做了什么:

SYS_SPLIT_WORDS_ICU("ab cd", 0)
[ 
  "ab", 
  " ", 
  "cd" 
]
SYS_SPLIT_WORDS_ICU("3da549f0-0e88-4297-b6af-5179b74bd929", 0)
[ 
  "3da549f0", 
  "-", 
  "0e88", 
  "-", 
  "4297", 
  "-", 
  "b6af", 
  "-", 
  "5179b74bd929" 
]

所以你看,减号被视为单词边界,你的字符串是分区的。你现在有几个机会来规避这个问题:

  • 删除插入的缺点
  • 拆分搜索字符串,并使用散列中最有意义的部分,然后是实际值的 FILTER 语句
  • 根本不使用全文索引,而是使用跳过列表或哈希索引;它们维护成本更低,可用于 FILTER 语句
于 2016-04-21T09:34:46.640 回答