问题标签 [google-bigquery]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
428 浏览

database - 云中的 MapReduce

除了 Amazon MapReduce,我还有哪些其他选项可以处理大量数据?

0 投票
1 回答
294 浏览

google-app-engine - 如何分析和查询大块数据

我需要:

1、分析http日志的大文件

  • 我正在考虑使用 mapreduce,但我不确定在哪里托管它。我应该使用 App Engine Mapper 或 EC2+MapReduce 还是直接在我的 VPS 中使用它?
  • 除了 MapReduce 之外的其他建议?

2.保存并查询结果

  • 在分析完所有数据后,我需要将其保存并以最佳方式呈现给用户。我应该如何保存结果?MongoDB 是一个很好的解决方案吗?

谢谢。

问候。

0 投票
3 回答
2595 浏览

google-bigquery - Google BigQuery 是否需要架构?

我想使用 bigquery 来存储日志。它是否需要像 Mysql 和其他 RDBMS 这样的固定模式,或者它像没有模式的 nosql?

0 投票
3 回答
37577 浏览

hadoop - 什么是谷歌的 Dremel?它与 Mapreduce 有何不同?

此处描述了Google 的 Dremel 。Dremel 和 Mapreduce 有什么区别?

0 投票
2 回答
1693 浏览

r - 使用 R 与 SimpleDB 或 BigQuery 或使用 PHP 与 SimpleDB 的建议

我目前正在研究生成产品推荐的系统,例如亚马逊上的产品推荐:“买这个的人也买了这个..”

当前场景:

  • 提取客户端的谷歌分析数据并将其插入数据库。

  • 在客户端的网站上,在加载产品页面时,会调用 API 以获取正在查看的产品的推荐。

  • 当 API 收到产品 ID 作为请求时,它会在数据库中查找并检索(使用关联规则)推荐的产品 ID 并将它们作为响应发送。

  • 这些产品ID的列表将被处理以在客户端获取产品详细信息(图像,价格..)并显示在网站上。

  • 目前我在 AMAZON EC2 上使用 PHP 和 MYSQL 以及 gapi 包和 REST api 存储。

我的问题是: 现在,如果我必须在以下选项中进行选择,那将是实现上述概念的最佳选择。

  • PHP 与 SimpleDB 或 BIGQuery。

  • 带有 BIGQuery 的 R 语言。

  • RHIPE-(R 和 hadoop)与 SimpleDB。

  • Apache Mahout。

请帮忙!

0 投票
5 回答
1352 浏览

java - 如何在 1 秒内从 GAE 数据存储中检索大量(>2000)实体?

我们的应用程序的某些部分需要加载大量数据(>2000 个实体)并在该数据集上执行计算。每个实体的大小约为 5 KB。

在我们最初的、幼稚的实现中,瓶颈似乎是加载所有实体所需的时间(2000 个实体约为 40 秒),而执行计算本身所需的时间非常短(<1 秒)。

我们尝试了几种策略来加快实体检索:

  • 将检索请求拆分为多个并行实例,然后合并结果:~20 seconds for 2000 entity
  • 将实体存储在驻留后端的内存缓存中:约 5 秒用于 2000 个实体

计算需要动态计算,因此在写入时进行预计算并存储结果在我们的情况下不起作用。

我们希望能够在一秒钟内检索到大约 2000 个实体。这在 GAE/J 的能力范围内吗?我们可以为这种检索实施任何其他策略吗?

更新:提供有关我们的用例和并行化结果的附加信息:

  • 我们在数据存储区中有超过 200.000 个相同类型的实体,并且该操作仅用于检索。
  • 我们用 10 个并行工作实例进行了实验,我们获得的典型结果可以在这个 pastebin中看到。将实体传输回主实例时所需的序列化和反序列化似乎会妨碍性能。

更新2:举例说明我们正在尝试做的事情:

  1. 假设我们有一个 StockDerivative 实体,需要对其进行分析以了解它是否是一项好的投资。
  2. 执行的分析需要基于许多外部因素(例如用户的偏好、市场状况)和内部因素(即来自实体的属性)的复杂计算,并且会输出一个单一的“投资得分”值。
  3. 用户可以请求根据其投资分数对衍生品进行排序,并要求提供 N 个得分最高的衍生品。
0 投票
1 回答
210 浏览

google-visualization - 寻找用于分析的托管后端业务数据存储

我想要一个简单的托管数据存储,用于许可商业应用程序。我想要以下功能:

  • 对 CRUD 操作的类似 REST 的访问(主要是添加记录)
  • 私有且经过身份验证
  • 可以轻松与 Google Visualization API 等前端图表客户端集成
  • 易于使用和设置

怎么样:* Google Fusion Tables * Google Cloud Services * Google BigQuery * Google Cloud SQL

或其他非谷歌产品。但我正在想象 Google Charts 与其后端数据服务之一之间的更清洁的集成。

优点,缺点,建议?

0 投票
3 回答
2601 浏览

google-bigquery - 使用 BigQuery 进行日志分析

我正在尝试使用 BigQuery 进行日志分析。具体来说,我有一个 appengine 应用程序和一个 javascript 客户端,它们会将日志数据发送到 BigQuery。在 bigquery 中,我会将完整的日志文本存储在一列中,但也会将重要字段提取到其他列中。然后我希望能够对这些列进行临时查询。

两个问题:

1) BigQuery 在这个用例中是特别好还是特别坏?2) 如何设置循环日志?即我只想存储最后 N 个日志或最后 X GB 的日志数据。我看到不支持删除。

0 投票
5 回答
4597 浏览

google-bigquery - 使用 BigQuery 进行实时分析

有没有办法使用 BigQuery 运行实时分析?我使用了 CSV 上传选项来启动一项工作并以离线模式加载数据,一旦加载完成就可以对其进行分析。但在有关 BigQuery 的公告中,提到了使用 BigQuery 进行实时分析。如何做到这一点?我们能否以涓流模式将来自 Google Cloud 数据库的数据(不更新)附加到 BigQuery 以进行实时分析?

作为旁注,我注意到 BigQuery CSV 数据加载比在我的本地 PC 上使用 10GB 数据文件运行的 LucidDB 和 InfiniDB 慢一个数量级。BigQuery 作业完成需要 34 分钟,而 InfiniDB 和 LucidDB 需要 5 分钟。与 InfiniDB 相比,BigQuery 的查询执行时间(对于简单聚合)慢两倍(6 秒对 3 秒,对于加载大约 30+ 百万条记录的 10GB 文件),但优于 LucidDB。

0 投票
2 回答
931 浏览

ubuntu - 安装 BigQuery

我尝试在 ubuntu 上安装大查询,但出现以下错误:

我该如何纠正这个问题?

更新:

我正在尝试安装此处找到的 google BigQuery 工具包...

http://code.google.com/p/google-bigquery-tools/downloads/list