问题标签 [bigdata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 根据python列表中的另一个变量(使唯一)对变量中的条目求和
我有一个关于如何在 python 中执行此任务的问题:-
我有一个条目数组,例如:[IPAddress、连接、策略状态、活动标志、经度、纬度](全部为字符串)
前任。
...直到大约 110000 个条目,大约 4000 种不同的经纬度组合
我想计算每个位置的平均连接数、平均策略状态、平均活动标志
像这样的东西:
... 很快
我有大约 195 个文件,每个文件有约 110,000 个条目(有点像大数据问题)
我还是 python 新手,所以我不确定什么是最好的使用方法,但我真诚地感谢任何关于这个问题的帮助或指导
提前致谢!
database - 我应该选择哪种 NoSql 解决方案?
我有一个分布在几十台服务器上的系统。它应该每秒执行大约 10000 次读取和写入。记录大小约为几KB。数据完整性不是很重要。我应该选择哪种 NoSql 解决方案?
谢谢!丹尼尔
performance - R中数据的快速边界
假设我有一个向量 ,vec
它很长(从 1E8 个条目开始)并且想将它绑定到范围[a,b]
。我当然可以编码vec[vec < a] = a
and vec[vec > b] = b
,但这需要两次传递数据并为临时指标向量分配大量 RAM(~800MB,两次)。两者都通过了刻录时间,因为如果我们只将数据从主内存复制到本地缓存一次,我们可以做得更好(对主内存的调用很糟糕,缓存未命中也是如此)。谁知道多线程可以改善多少,但我们不要贪心。:)
在基本 R 或我忽略的某个包中是否有一个很好的实现,或者这是 Rcpp (或我的老朋友data.table
)的工作?
mongodb - mongo 的 MR 可以将结果写入另一个分片集合吗?
根据 Mongo MR 文档 ( http://www.mongodb.org/display/DOCS/MapReduce#MapReduce-ShardedEnvironments ),分片数据上的 MR 作业的输出可以将结果写入另一个分片集合,但是只有 _ID可以用作分片键。
有没有办法发出或设置将分配给结果文档的_ID?说使用本身用作分片键的 UserID 或 CustomerNo?
javascript - 创建仪表板和警报的框架
我正在写我公司的一个大数据项目。我们正在编写收集大量数据的软件(如数据的点击流)。目前我们将这些数据存储在 HBase 中。我们计划在此基础上构建分析。我们研究了 OBIEE 和一个可能的解决方案,其中聚合的 HBase 数据可以加载到 Oracle 实例并让 OBIEE 位于 Oracle 数据的前面。这可能是一个可行的解决方案,但它有很多依赖关系,我们将受到 Oracle 能力的限制(我们的数据非常庞大)。
如果我们要编写自己的分析门户,主要是创建丰富的用户界面(定期报告仪表板、自定义仪表板)和业务警报,是否有任何框架可以让我轻松做到这一点。
任何帮助将非常感激。
谢谢
node.js - 如何使用node.js http服务器从mongodb返回大量行?
我在 mongodb 中有一个用户数据库,我想通过 JSON 中的 REST 接口导出它。问题是,在最坏的情况下,返回的行数远远超过 200 万。
首先我试过这个
内存不足时失败。该示例使用 node-mongodb-native 驱动程序和基本的 http 包。
致命错误:CALL_AND_RETRY_2 分配失败 - 进程内存不足
(请注意,在实际场景中,我使用的参数会根据需要限制结果,但此示例会查询所有这些参数,这是最坏的情况)
数据本身很简单,比如
{“_id”:ObjectId(“4f993d1c5656d3320851aadb”),“userid”:“80ec39f7-37e2-4b13-b442-6bea57472537”,“user-agent”:“Mozilla/4.0(兼容;MSIE 8.0;Windows NT 5.1;Trident/ 4.0;.NET CLR 1.1.4322)","ip":"127.0.0.1","lastupdate":1335442716 }
我也尝试过类似的东西
但这也耗尽了内存。
我应该如何进行?应该有一种方法可以逐行流式传输数据,但我一直无法找到合适的示例。由于外部应用程序的要求,对数据进行分页是不可能的。我想过将数据写入文件然后发布,但这会导致不需要的 io。
java - 漏斗分析计算,你会如何计算漏斗?
假设我跟踪用户在网站上进行的“事件”,事件可以是:
- 浏览主页
- 将商品添加到购物车
- 查看
- 已支付订单
现在,这些事件中的每一个都存储在一个数据库中,例如:
session_id event_name created_date ..
所以现在我想构建一个报告来显示一个特定的漏斗,我将定义如下:
所以这个特定的漏斗有 3 个步骤,每个步骤都与任何事件相关联。
鉴于我拥有的上述数据,我现在如何为此构建报告?
注意:只是想清楚一点,我希望能够创建我定义的任何渠道,并能够为其创建报告。
我能想到的最基本的方法是:
- 获取数据库中每个步骤的所有事件
- 第 1 步将是,x% 的人执行 event_n
- 现在我将不得不查询也执行了步骤#1 的步骤#2 的数据,并显示 %
- 与#3 相同,但对于步骤#3 具有步骤#2 的条件
我很好奇这些在线服务如何在托管的 Saas 环境中显示这些类型的报告。map-reduce 是否以某种方式使这变得更容易?
python - 大卫星图像处理
我试图在双时相 RapidEye 多光谱图像上运行 Mort Canty 的http://mcanty.homepage.t-online.de/ Python iMAD 实现。它基本上计算了两个图像的典型相关,然后减去它们。我遇到的问题是图像的大小为 5000 x 5000 x 5(条带)像素。如果我尝试在整个图像上运行它,我会收到内存错误。
使用 pyTables 之类的东西会帮助我吗?
Mort Canty 的代码试图做的是它使用 gdal 加载图像,然后将它们存储在一个 10 x 25,000,000 的数组中。
即使只是创建一个 10 x 25,000,000 的 numpy 浮点数组也会引发内存错误。任何人都知道如何解决这个问题?这是我的第一篇文章,所以任何关于如何发布的建议也将受到欢迎。
问候
performance - 在Unix中拆分文件
只是想知道除了unix“split”之外,是否有更快的方法将文件拆分为N个块。
基本上我有大文件,我想将它们分成更小的块并并行操作每个块。
python - 将数据从 SQLServer 移植到 BigData
我当前的托管站点上有一个大型 SQLServer 数据库......并且
我想将其导入 Google BigData。
有办法吗?