18

我想使用 CouchDB 为我存储一些数据,然后使用 RESTful api 调用来获取我需要的数据。我的数据库称为“测试”,我的文档都有类似的结构,看起来像这样(其中 hello_world 是文档 ID):

"hello_world" : {"id":123, "tags":["hello", "world"], "text":"Hello World"}
"foo_bar" :{"id":124, "tags":["foo", "bar"], "text":"Foo Bar"} 

我想做的是让我的用户发送一个查询,例如:“给我所有包含'hello world'的文档。我一直在玩视图,但它看起来像它们只允许我将这些值中的一个或多个移动到映射函数的“关键”部分。这使我能够执行以下操作:

http://localhost:5984/test/_design/search/_view/sea​​rch_view?key= "你好"

但这不允许我让我的用户指定他们的查询字符串。例如,如果他们搜索“hello world”会怎样。我必须做两个查询:一个用于“hello”,一个用于“world”,然后我必须编写一堆 javascript 来组合结果、删除重复项等(YUCK!)。我真正想要的是能够做这样的事情:

http://localhost:5984/test/_design/search/_view/sea​​rch_view?term= "你好世界"

然后在视图 map/reduce 函数中使用参数“hello world”来查找 tags 数组中同时包含“hello”和“world”的所有文档。CouchDB 甚至可以实现这种事情吗?在我没有想到的视图中是否有另一种方法可以实现这一点?

4

3 回答 3

20

CouchDB 视图不支持分面搜索或全文搜索或结果交集。couchdb-lucene 插件可以让你做所有这些事情。

http://github.com/rnewson/couchdb-lucene/tree/master

于 2009-07-29T21:26:16.773 回答
2

从技术上讲,如果您为每个文档发出文档标签的每组 powerset 作为键,这是可能的。必须对键集元素进行排序,并且您的查询也必须查询已排序的标签。

function map(doc) {
  function powerset(array) { ... }

  powerset_of_tags = powerset(doc.tags)
  for(i in powerset_of_tags) {
    emit(powerset_of_tags[i], doc);
  }
}

对于文档,{"hello_world" : {"id":123, "tags":["hello", "world"], "text":"Hello World"}这将发出:

{ key: [], doc: ... }
{ key: ['hello'], doc: ... }
{ key: ['world'], doc: ... }
{ key: ['hello', 'world'], doc: ... }

虽然这是可能的,但我认为这是一个相当棘手的解决方案。我不想想象更多标签的视图的磁盘使用情况。我预计发出的密钥数量会增长到 2^n。

于 2009-07-31T22:32:01.790 回答
0

在幕后,couchdb 通过 b-tree 存储数据,因此您应该使用视图进行预处理,在这种情况下的限制是您无法搜索正则表达式。或者,您可以通过视图中的键的前缀或后缀进行搜索。

注意:不要使用emit(key, doc),它会克隆文档,你应该使用emit(key, null) 或emit(key) 并在查询时添加“include_docs = true”。

您可以使用您的标签作为查询的关键。

//查看函数

function (doc) {
  if (doc.type === "hello") {
    emit(doc);
  }
}

//芒果查询

db
.query(your_view_name,
      { startkey: startkey, endkey: endkey, include_docs: true });

笔记:

endkey = startkey + "\uffff";
startkey = "h", "he", "hell"...

另外:如果您不希望性能下降,永远不要使用芒果查询来查询正则表达式。我通过查看功能将性能问题从 2 分钟修复到 2 秒。

于 2019-09-15T10:18:56.187 回答