问题标签 [nosql-aggregation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
483 浏览

nosql - RavenDB:我们可以将参数传递给映射/减少索引吗

我正在阅读很多关于预先计算的 raven db map/reduce 索引。我可以将参数传递给 map 函数,以便在分片环境中动态执行 map/reduce。

例如在http://ayende.com/blog/89089/ravenb-multi-maps-reduce-indexes

我可以在 map 函数中传递用户名参数而不是查询索引的结果吗?

我有 1500 万份文档分片在 3 台机器上。我正在尝试在 3 台机器上并行运行 map/reduce 查询。我查看了 mongodb,因为 mongo 的 map/reduce 在 javascript 线程上运行它非常慢。这种用例是否有可行的解决方案?

谢谢

0 投票
2 回答
613 浏览

mongodb - MongoDB GeoNear 聚合

问题是:

考虑以下位置:[-72, 42] 和围绕该点的半径为 2 的范围(圆)。编写查询以查找与此范围(圆圈)相交的所有状态。然后,您应该返回每个州的总人口和城市数量。根据城市数量对各州进行排名。

到目前为止,我已经写了这个:

db.zips.find({loc: {$near: [-72, 42], $maxDistance: 2}})

其示例输出为: { "city" : "WOODSTOCK", "loc" : [ -72.004027, 41.960218 ], "pop" : 5698, "state" : "CT", "_id" : "06281" }

在 SQL 中,我只需按“州”进行分组,我怎么能在这里做到这一点,同时还要计算所有城市和总人口?

0 投票
4 回答
60330 浏览

nosql - Cassandra 中的 MAX()、DISTINCT 和 group by

我正在尝试改造一个 SQL 数据库 Cassandra,以便我可以找到与 SQL 查询等效的 Cassandra。我使用 CQL 3 和 Cassandra v1.2。我在 cassandra 中对 db 设计进行了建模,使其支持 order by 子句和非规范化表以支持连接操作。然而,当谈到 DISTINCT、SUM() 和 GROUPBY 等价物时,我在海上

这就像我过去几天工作的一个亮点。Cassandra 中有没有一种方法可以对数据库模式进行建模以支持此类查询?我想不出 Cassandra 有什么办法。如何使用 Cassandra 实现这样的查询?

我读到 Cassandra 上的配置单元层可能会使这些查询工作。我只是想知道这是否是 Cassandra 支持此类查询的唯一方法..?请建议任何其他可能的方法..

0 投票
0 回答
52 浏览

mongodb - pymongo groupby 返回按键分组的前 2 个文档

样品采集:

我将如何返回文档 0、1、3 和 4 - 按状态分组并返回前 2 个 hitCount。

我一直在尝试使用聚合组功能。我想我已经接近了,但我的解决方案仍然需要大量的客户端工作——我带入所有文件,然后得到我需要的文件。这绝对不会扩展,因此需要一些帮助来修复它。

我正在使用 pymongo。

0 投票
2 回答
2116 浏览

java - 如何在吗啡中按计数分组?

我有一个收藏:

我需要计算每个组的消息数。是否可以避免遍历整个集合?

0 投票
1 回答
180 浏览

mongodb - 如何获取文档中数组的 $sum?

例如,我有以下文件:

其中 service_id 指的是一些外部文档(我知道,不推荐),price 是工作价格,count 是工作已执行的次数,items 是材料数组,用于所有工作。我需要得到所有作品的总价。我尝试了以下未完成的代码:

它实际上并不对数组求和 - 它展开作品和项目,然后使用 $group 对展开的项目求和。但后来我想起来了——可能有两件作品具有相同的 service_id、count 和 price,在 $unwind 和 $group 之后,我会丢失其中一个,将两者的项目放在一起。

有没有办法在没有 $unwind 的情况下在文档中获取数组 $sum?

编辑: 我希望收到一份没有项目的作品清单,但总项目成本:

0 投票
1 回答
1543 浏览

mongodb - 如何在 mongodb 集合上合并子文档(作为数组)

你好,我有一个收藏:

所以,在仪表板的一页上,我想查看所有评论,我该怎么做?如何获取单个集合中每个帖子的所有评论,如何识别每个评论(用于编辑或删除)?

UPD1:

这是来自帖子集合的文档。我想得到这样的东西:

0 投票
1 回答
928 浏览

sql-server - 将数据从 SQL Server 迁移到 NoSQL

SQL Server 上有一个简单的统计数据,它是一种时间序列,只有三列。

但问题是,该系列每 10 秒出现一次,每日数据大小约为 100,000 行。

数据由 wcf Web 服务使用。

  • %75 作为一个汇总(带有 avg、min、max、sum)
  • %25 作为基于直接行的结果集
  • 更新和删除太少。

Web 服务(编码为 c#)作为中间层为客户端提供数据,SP 和视图读取数据,wcf 中没有临时查询。

我正计划将该数据移动到 NoSql 平台,以便将 SQL Server 用于其他操作。

哪个 nosql 平台是最好的选择?

无SQL;

  1. 必须有 .Net 语言的驱动程序(更改 wcf 服务以供阅读)
  2. 将具有内置聚合(至少对于 sum,avg)

我在考虑 Cassandra,但在查询数据时它没有内置聚合,我不确定在服务层聚合数据是否会很快。

我会很感激任何想法......

0 投票
1 回答
402 浏览

arangodb - 如何对 ArangoDB 中的文档字段进行原子操作?

我想知道使用 ArangoDB 执行此操作的最佳方法是什么,我开始使用事务,或者使用修订检查更新它的记录,但是对于许多并发更新来说并不是很好。

在新版本 2.1 中,我看到我可以在服务器中注册函数以每隔 X 时间执行一次,因为我将原始数据保存很长时间,我可以使用一个服务器任务异步计算它,但它给出了更多的延迟到柜台。

还有其他方法吗?

谢谢,

迭戈·古莱布

0 投票
1 回答
150 浏览

cassandra - 面向列的数据库相关

伙计们,

我目前已经开始阅读有关 NOSQL 相关数据库的信息,因为目前正在研究与数据库仓库相关的应用程序。

我有以下问题。我已经阅读了基础知识。

问题 1)当具有相同列的数据存储在一起时,如何在面向列的数据库中检索整个原始数据?

假设我们以以下格式存储数据,因此在内部它将像这样存储在面向列的数据库中。

test|test1 一起和 5|10 一起。

键 1:{名称:测试,值:5} 键 2:{名称:test1,值:10}

因此,如果我们必须检索 key1 的数据,它是如何发生的?(A和B是我的猜测)

A)如果它必须分别从每个列存储中提取数据,那么成本将非常高

B)是否有任何索引机制来获取给定原始键的所有列的数据?

问题2 )

我正在阅读一些文档,发现面向列的数据库更适合在单列上运行聚合函数,因为 I/O 会更少。

在 cassandra 和 HBASE 等 NOSQL 列式存储中,我没有找到对 SUM、AVG 等聚合函数的适当支持。(可能会有一些调整/黑客/更多代码编写,如下所示)

Apache Cassandra 如何进行聚合操作? 实时查询/聚合数百万条记录-hadoop?hbase?卡珊德拉? 如何使用hbase协处理器实现groupby?

问题 3) 连接如何在面向列的数据库中内部发生是可取的吗?