mapreduce - couchdb map/reduce 视图：只计算最近的项目

Question

我有以下文件。关键字的时间戳位置。

{
  _id: willem-aap-1234,
  keyword:aap,
  position: 10,
  profile: { name: willem },
  created_at: 1234
},
{
  _id: willem-aap-2345,
  keyword:aap,
  profile: { name: willem },
  created_at: 2345
},
{
  _id: oliver-aap-1235,
  keyword:aap,
  profile: { name: oliver },
  created_at: 1235
},
{
  _id: oliver-aap-2346,
  keyword:aap,
  profile: { name: oliver },
  created_at: 2346
}

可以通过以下方式查找每个 profile.name 的最新关键字：

map: function(doc) {
if(doc.profile)
    emit(
        [doc.profile.name, doc.keyword, doc.created_at], 
        { keyword : doc.keyword, position : doc.position, created_at: doc.created_at }
    );
}

reduce: function(keys, values, rered) {
  var r = values[0];
  for (var i=1; i<values.length; i++)
    if (r.created_at < values[i].created_at)
      r = values[i];
  return r;
}

然后查询数据库

reduce : true,
group_level : 2,
startkey : [aname],
endkey : [aname,{}]

这为我提供了名称为 aname 的配置文件的最新文档。

但是现在我想计算每个关键字的所有最新文档，并对这些位置求和。我无法解决这个问题，试图仅使用 map/reduce 来做到这一点。

我的用户案例是：

查找每个 profile.user、每个关键字的最新文档
计算每个关键字的唯一 profile.name 的数量
对每个关键字的最新文档的位置求和

我可以使它工作的唯一方法是使用以下列表函数：

function(head, req) {
  var row;
  var counts = {};
  while (row = getRow()) {
    var v = row.value;
    var k = v.keyword;

    if (v.position) {
      if (!counts[k])
        counts[k] = { 
          position : 0,
          count : 0
        }
      counts[k].position += v.position;
      counts[k].count++;
    }
  }

  return JSON.stringify(counts);
}

谁能想到一个更好的方法来做到这一点，只使用 map/reduce？

谢谢

score 0 · Accepted Answer

有些部分的含义还是有点模糊（例如，什么是“位置”？）。

但从纯粹形式的角度来看，似乎您的列表创建了一个索引，keyword 而您的地图创建了一个索引[profile, keyword, timestamp]。

如果你真的需要不同的索引，那么你需要几张地图，每个索引一张。唯一的例外是当您已经有一个地图时[a,b,c]，您可以更改“组级别”并获取其他两个索引：[a,b]和[a]。

mapreduce - couchdb map/reduce 视图：只计算最近的项目

1 回答 1

Related

Reference