“bigdata”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

82 浏览

python - 根据python列表中的另一个变量（使唯一）对变量中的条目求和

我有一个关于如何在 python 中执行此任务的问题：-

我有一个条目数组，例如：[IPAddress、连接、策略状态、活动标志、经度、纬度]（全部为字符串）

前任。

...直到大约 110000 个条目，大约 4000 种不同的经纬度组合

我想计算每个位置的平均连接数、平均策略状态、平均活动标志

像这样的东西：

... 很快

我有大约 195 个文件，每个文件有约 110,000 个条目（有点像大数据问题）

我还是 python 新手，所以我不确定什么是最好的使用方法，但我真诚地感谢任何关于这个问题的帮助或指导

提前致谢！

2012-04-21T11:46:25.047

0 投票

1 回答

557 浏览

database - 我应该选择哪种 NoSql 解决方案？

我有一个分布在几十台服务器上的系统。它应该每秒执行大约 10000 次读取和写入。记录大小约为几KB。数据完整性不是很重要。我应该选择哪种 NoSql 解决方案？

谢谢！丹尼尔

database nosql bigdata

2012-04-24T13:49:52.000

0 投票

2 回答

398 浏览

performance - R中数据的快速边界

假设我有一个向量，vec它很长（从 1E8 个条目开始）并且想将它绑定到范围[a,b]。我当然可以编码vec[vec < a] = aand vec[vec > b] = b，但这需要两次传递数据并为临时指标向量分配大量 RAM（~800MB，两次）。两者都通过了刻录时间，因为如果我们只将数据从主内存复制到本地缓存一次，我们可以做得更好（对主内存的调用很糟糕，缓存未命中也是如此）。谁知道多线程可以改善多少，但我们不要贪心。:)

在基本 R 或我忽略的某个包中是否有一个很好的实现，或者这是 Rcpp （或我的老朋友data.table）的工作？

performance r data.table bigdata rcpp

2012-05-06T20:40:22.943

0 投票

1 回答

86 浏览

mongodb - mongo 的 MR 可以将结果写入另一个分片集合吗？

根据 Mongo MR 文档 ( http://www.mongodb.org/display/DOCS/MapReduce#MapReduce-ShardedEnvironments )，分片数据上的 MR 作业的输出可以将结果写入另一个分片集合，但是只有 _ID可以用作分片键。

有没有办法发出或设置将分配给结果文档的_ID？说使用本身用作分片键的 UserID 或 CustomerNo？

mongodb mapreduce bigdata nosql

2012-05-07T21:07:06.097

0 投票

2 回答

1141 浏览

javascript - 创建仪表板和警报的框架

我正在写我公司的一个大数据项目。我们正在编写收集大量数据的软件（如数据的点击流）。目前我们将这些数据存储在 HBase 中。我们计划在此基础上构建分析。我们研究了 OBIEE 和一个可能的解决方案，其中聚合的 HBase 数据可以加载到 Oracle 实例并让 OBIEE 位于 Oracle 数据的前面。这可能是一个可行的解决方案，但它有很多依赖关系，我们将受到 Oracle 能力的限制（我们的数据非常庞大）。

如果我们要编写自己的分析门户，主要是创建丰富的用户界面（定期报告仪表板、自定义仪表板）和业务警报，是否有任何框架可以让我轻松做到这一点。

任何帮助将非常感激。

谢谢

javascript analytics dashboard bigdata

2012-05-11T00:46:07.167

0 投票

5 回答

14757 浏览

node.js - 如何使用node.js http服务器从mongodb返回大量行？

我在 mongodb 中有一个用户数据库，我想通过 JSON 中的 REST 接口导出它。问题是，在最坏的情况下，返回的行数远远超过 200 万。

首先我试过这个

内存不足时失败。该示例使用 node-mongodb-native 驱动程序和基本的 http 包。

致命错误：CALL_AND_RETRY_2 分配失败 - 进程内存不足

（请注意，在实际场景中，我使用的参数会根据需要限制结果，但此示例会查询所有这些参数，这是最坏的情况）

数据本身很简单，比如

{“_id”：ObjectId（“4f993d1c5656d3320851aadb”），“userid”：“80ec39f7-37e2-4b13-b442-6bea57472537”，“user-agent”：“Mozilla/4.0（兼容；MSIE 8.0；Windows NT 5.1；Trident/ 4.0；.NET CLR 1.1.4322)"，"ip"："127.0.0.1"，"lastupdate"：1335442716 }

我也尝试过类似的东西

但这也耗尽了内存。

我应该如何进行？应该有一种方法可以逐行流式传输数据，但我一直无法找到合适的示例。由于外部应用程序的要求，对数据进行分页是不可能的。我想过将数据写入文件然后发布，但这会导致不需要的 io。

node.js mongodb rest http bigdata

2012-05-11T06:02:14.797

0 投票

3 回答

2061 浏览

java - 漏斗分析计算，你会如何计算漏斗？

假设我跟踪用户在网站上进行的“事件”，事件可以是：

浏览主页
将商品添加到购物车
查看
已支付订单

现在，这些事件中的每一个都存储在一个数据库中，例如：

session_id event_name created_date ..

所以现在我想构建一个报告来显示一个特定的漏斗，我将定义如下：

所以这个特定的漏斗有 3 个步骤，每个步骤都与任何事件相关联。

鉴于我拥有的上述数据，我现在如何为此构建报告？

注意：只是想清楚一点，我希望能够创建我定义的任何渠道，并能够为其创建报告。

我能想到的最基本的方法是：

获取数据库中每个步骤的所有事件
第 1 步将是，x% 的人执行 event_n
现在我将不得不查询也执行了步骤#1 的步骤#2 的数据，并显示 %
与#3 相同，但对于步骤#3 具有步骤#2 的条件

我很好奇这些在线服务如何在托管的 Saas 环境中显示这些类型的报告。map-reduce 是否以某种方式使这变得更容易？

java math hadoop mapreduce bigdata

2012-05-12T19:20:23.270

0 投票

1 回答

1766 浏览

python - 大卫星图像处理

我试图在双时相 RapidEye 多光谱图像上运行 Mort Canty 的http://mcanty.homepage.t-online.de/ Python iMAD 实现。它基本上计算了两个图像的典型相关，然后减去它们。我遇到的问题是图像的大小为 5000 x 5000 x 5（条带）像素。如果我尝试在整个图像上运行它，我会收到内存错误。

使用 pyTables 之类的东西会帮助我吗？

Mort Canty 的代码试图做的是它使用 gdal 加载图像，然后将它们存储在一个 10 x 25,000,000 的数组中。

即使只是创建一个 10 x 25,000,000 的 numpy 浮点数组也会引发内存错误。任何人都知道如何解决这个问题？这是我的第一篇文章，所以任何关于如何发布的建议也将受到欢迎。

问候

python satellite-image large-data bigdata

2012-05-14T06:34:41.367

0 投票

2 回答

2308 浏览

performance - 在Unix中拆分文件

只是想知道除了unix“split”之外，是否有更快的方法将文件拆分为N个块。

基本上我有大文件，我想将它们分成更小的块并并行操作每个块。

performance unix split bigdata

2012-05-16T23:01:06.050

0 投票

1 回答

108 浏览

python - 将数据从 SQLServer 移植到 BigData

我当前的托管站点上有一个大型 SQLServer 数据库......并且

我想将其导入 Google BigData。

有办法吗？

python sql-server bigdata

2012-05-22T15:52:12.513

问题标签 [bigdata]

Reference