3

我有这样的文件:

 order : 1
     event : { timestamp: 1/1/2012, employeeName: "mick" },
     event : { timestamp: 1/1/2012, employeeName: "mick" },
     event : { timestamp: 1/2/2012, employeeName: "rick" },
     event : { timestamp: 1/3/2012, employeeName: "mick" }

  order : 2
     event : { timestamp: 1/2/2012, employeeName: "mick" },
     event : { timestamp: 1/2/2012, employeeName: "rick" }

我想运行 map-reduce 查询以返回按日期分组的结果列表,其中包含每个订单的员工事件计数。

在这种情况下,Mick 在 1/1 的一个订单中有 2 个事件。在 11 月 2 日和 3 日,其他所有日子里,员工在每个订单上都有一个单一的事件。所以我需要一个 MAP 函数,其结果如下所示:

{ orderId: 1, date: 1/1/2012, employee: "mick", orderEventsCount: 2 },
{ orderId: 1, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "mick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 1, date: 1/3/2012, employee: "mick", orderEventsCount: 1 }

然后我需要一个 REDUCE 函数,它将获取这些结果并仅按日期分组,并在单个订单上返回每天有多个事件的员工计数:

{ date: 1/1/2012, multipleEventsPerOrdercount: 1 },
{ date: 1/2/2012, multipleEventsPerOrdercount: 0 },
{ date: 1/3/2012, multipleEventsPerOrdercount: 0 }

由于 Mick 是唯一一位在单个订单上在单个日期发生多个事件的员工,因此结果仅返回了一个员工在某个日期的一个订单上有多个事件的计数。

在 .NET 中使用 LINQ 编写这个 map-reduce Raven 查询的最佳方法是什么?

谢谢

4

1 回答 1

1

假设您的课程如下所示:

public class Order
{
  public string Id  { get; set; }
  public List<Event> Events { get; set; }
}

public class Event
{
  public DateTime Timestamp { get; set; }
  public string EmployeeName { get; set; }
}

然后您要求的索引将如下所示:

public class Orders_EventCountsByDate : 
    AbstractIndexCreationTask<Order, Orders_EventCountsByDate.Result>
{
  public class Result
  {
    public DateTime Date { get; set; }
    public double Count { get; set; }
  }

  public Orders_EventCountsByDate()
  {
    Map = orders => from order in orders
                    from evt in order.Events
                    let subtotal = order.Events.Count(x => x.EmployeeName == evt.EmployeeName && x.Timestamp == evt.Timestamp)
                    select new
                    {
                      evt.Timestamp.Date,
                      Count = subtotal > 1 ? (1.0 / subtotal) : 0
                    };

    Reduce = results => from result in results
                        group result by result.Date
                        into g
                        select new
                        {
                          Date = g.Key,
                          Count = g.Sum(x => x.Count)
                        };
  }
}

你会像这样使用它:

var counts = session.Query<Orders_EventCountsByDate.Result,
                           Orders_EventCountsByDate>();

这里的诀窍是,您要在地图中确定您希望每个事件对计数做出多少贡献。如果只有一个事件,您贡献零。当有多个事件时,每个事件占总数的一小部分。这些分数稍后会在 reduce 中汇总,使您返回接近整数。双浮点数学应该让你回到整数,但为了安全起见,你仍然可能希望在客户端代码中四舍五入到最接近的整数。

这还假设所有事件都在同一个时区,并且您不关心夏令时的变化,或者时间是 UTC。如果两者都不是,那么您应该使用 DateTimeOffset 并且在决定每个员工的 Day 概念时需要考虑更多。

于 2012-11-09T15:22:21.030 回答