问题标签 [bigdata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
82 浏览

python - 根据python列表中的另一个变量(使唯一)对变量中的条目求和

我有一个关于如何在 python 中执行此任务的问题:-

我有一个条目数组,例如:[IPAddress、连接、策略状态、活动标志、经度、纬度](全部为字符串)

前任。

...直到大约 110000 个条目,大约 4000 种不同的经纬度组合

我想计算每个位置的平均连接数、平均策略状态、平均活动标志

像这样的东西:

... 很快

我有大约 195 个文件,每个文件有约 110,000 个条目(有点像大数据问题)

我还是 python 新手,所以我不确定什么是最好的使用方法,但我真诚地感谢任何关于这个问题的帮助或指导

提前致谢!

0 投票
1 回答
557 浏览

database - 我应该选择哪种 NoSql 解决方案?

我有一个分布在几十台服务器上的系统。它应该每秒执行大约 10000 次读取和写入。记录大小约为几KB。数据完整性不是很重要。我应该选择哪种 NoSql 解决方案?

谢谢!丹尼尔

0 投票
2 回答
398 浏览

performance - R中数据的快速边界

假设我有一个向量 ,vec它很长(从 1E8 个条目开始)并且想将它绑定到范围[a,b]。我当然可以编码vec[vec < a] = aand vec[vec > b] = b,但这需要两次传递数据并为临时指标向量分配大量 RAM(~800MB,两次)。两者都通过了刻录时间,因为如果我们只将数据从主内存复制到本地缓存一次,我们可以做得更好(对主内存的调用很糟糕,缓存未命中也是如此)。谁知道多线程可以改善多少,但我们不要贪心。:)

在基本 R 或我忽略的某个包中是否有一个很好的实现,或者这是 Rcpp (或我的老朋友data.table)的工作?

0 投票
1 回答
86 浏览

mongodb - mongo 的 MR 可以将结果写入另一个分片集合吗?

根据 Mongo MR 文档 ( http://www.mongodb.org/display/DOCS/MapReduce#MapReduce-ShardedEnvironments ),分片数据上的 MR 作业的输出可以将结果写入另一个分片集合,但是只有 _ID可以用作分片键。

有没有办法发出或设置将分配给结果文档的_ID?说使用本身用作分片键的 UserID 或 CustomerNo?

0 投票
2 回答
1141 浏览

javascript - 创建仪表板和警报的框架

我正在写我公司的一个大数据项目。我们正在编写收集大量数据的软件(如数据的点击流)。目前我们将这些数据存储在 HBase 中。我们计划在此基础上构建分析。我们研究了 OBIEE 和一个可能的解决方案,其中聚合的 HBase 数据可以加载到 Oracle 实例并让 OBIEE 位于 Oracle 数据的前面。这可能是一个可行的解决方案,但它有很多依赖关系,我们将受到 Oracle 能力的限制(我们的数据非常庞大)。

如果我们要编写自己的分析门户,主要是创建丰富的用户界面(定期报告仪表板、自定义仪表板)和业务警报,是否有任何框架可以让我轻松做到这一点。

任何帮助将非常感激。

谢谢

0 投票
5 回答
14757 浏览

node.js - 如何使用node.js http服务器从mongodb返回大量行?

我在 mongodb 中有一个用户数据库,我想通过 JSON 中的 REST 接口导出它。问题是,在最坏的情况下,返回的行数远远超过 200 万。

首先我试过这个

内存不足时失败。该示例使用 node-mongodb-native 驱动程序和基本的 http 包。

致命错误:CALL_AND_RETRY_2 分配失败 - 进程内存不足

(请注意,在实际场景中,我使用的参数会根据需要限制结果,但此示例会查询所有这些参数,这是最坏的情况)

数据本身很简单,比如

{“_id”:ObjectId(“4f993d1c5656d3320851aadb”),“userid”:“80ec39f7-37e2-4b13-b442-6bea57472537”,“user-agent”:“Mozilla/4.0(兼容;MSIE 8.0;Windows NT 5.1;Trident/ 4.0;.NET CLR 1.1.4322)","ip":"127.0.0.1","lastupdate":1335442716 }

我也尝试过类似的东西

但这也耗尽了内存。

我应该如何进行?应该有一种方法可以逐行流式传输数据,但我一直无法找到合适的示例。由于外部应用程序的要求,对数据进行分页是不可能的。我想过将数据写入文件然后发布,但这会导致不需要的 io。

0 投票
3 回答
2061 浏览

java - 漏斗分析计算,你会如何计算漏斗?

假设我跟踪用户在网站上进行的“事件”,事件可以是:

  1. 浏览主页
  2. 将商品添加到购物车
  3. 查看
  4. 已支付订单

现在,这些事件中的每一个都存储在一个数据库中,例如:

session_id event_name created_date ..

所以现在我想构建一个报告来显示一个特定的漏斗,我将定义如下:

所以这个特定的漏斗有 3 个步骤,每个步骤都与任何事件相关联。

鉴于我拥有的上述数据,我现在如何为此构建报告?

注意:只是想清楚一点,我希望能够创建我定义的任何渠道,并能够为其创建报​​告。

我能想到的最基本的方法是:

  1. 获取数据库中每个步骤的所有事件
  2. 第 1 步将是,x% 的人执行 event_n
  3. 现在我将不得不查询也执行了步骤#1 的步骤#2 的数据,并显示 %
  4. 与#3 相同,但对于步骤#3 具有步骤#2 的条件

我很好奇这些在线服务如何在托管的 Saas 环境中显示这些类型的报告。map-reduce 是否以某种方式使这变得更容易?

0 投票
1 回答
1766 浏览

python - 大卫星图像处理

我试图在双时相 RapidEye 多光谱图像上运行 Mort Canty 的http://mcanty.homepage.t-online.de/ Python iMAD 实现。它基本上计算了两个图像的典型相关,然后减去它们。我遇到的问题是图像的大小为 5000 x 5000 x 5(条带)像素。如果我尝试在整个图像上运行它,我会收到内存错误。

使用 pyTables 之类的东西会帮助我吗?

Mort Canty 的代码试图做的是它使用 gdal 加载图像,然后将它们存储在一个 10 x 25,000,000 的数组中。

即使只是创建一个 10 x 25,000,000 的 numpy 浮点数组也会引发内存错误。任何人都知道如何解决这个问题?这是我的第一篇文章,所以任何关于如何发布的建议也将受到欢迎。

问候

0 投票
2 回答
2308 浏览

performance - 在Unix中拆分文件

只是想知道除了unix“split”之外,是否有更快的方法将文件拆分为N个块。

基本上我有大文件,我想将它们分成更小的块并并行操作每个块。

0 投票
1 回答
108 浏览

python - 将数据从 SQLServer 移植到 BigData

我当前的托管站点上有一个大型 SQLServer 数据库......并且

我想将其导入 Google BigData。

有办法吗?