问题标签 [google-bigquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 云中的 MapReduce
除了 Amazon MapReduce,我还有哪些其他选项可以处理大量数据?
google-app-engine - 如何分析和查询大块数据
我需要:
1、分析http日志的大文件
- 我正在考虑使用 mapreduce,但我不确定在哪里托管它。我应该使用 App Engine Mapper 或 EC2+MapReduce 还是直接在我的 VPS 中使用它?
- 除了 MapReduce 之外的其他建议?
2.保存并查询结果
- 在分析完所有数据后,我需要将其保存并以最佳方式呈现给用户。我应该如何保存结果?MongoDB 是一个很好的解决方案吗?
谢谢。
问候。
google-bigquery - Google BigQuery 是否需要架构?
我想使用 bigquery 来存储日志。它是否需要像 Mysql 和其他 RDBMS 这样的固定模式,或者它像没有模式的 nosql?
hadoop - 什么是谷歌的 Dremel?它与 Mapreduce 有何不同?
此处描述了Google 的 Dremel 。Dremel 和 Mapreduce 有什么区别?
r - 使用 R 与 SimpleDB 或 BigQuery 或使用 PHP 与 SimpleDB 的建议
我目前正在研究生成产品推荐的系统,例如亚马逊上的产品推荐:“买这个的人也买了这个..”
当前场景:
提取客户端的谷歌分析数据并将其插入数据库。
在客户端的网站上,在加载产品页面时,会调用 API 以获取正在查看的产品的推荐。
当 API 收到产品 ID 作为请求时,它会在数据库中查找并检索(使用关联规则)推荐的产品 ID 并将它们作为响应发送。
这些产品ID的列表将被处理以在客户端获取产品详细信息(图像,价格..)并显示在网站上。
目前我在 AMAZON EC2 上使用 PHP 和 MYSQL 以及 gapi 包和 REST api 存储。
我的问题是: 现在,如果我必须在以下选项中进行选择,那将是实现上述概念的最佳选择。
PHP 与 SimpleDB 或 BIGQuery。
带有 BIGQuery 的 R 语言。
RHIPE-(R 和 hadoop)与 SimpleDB。
Apache Mahout。
请帮忙!
java - 如何在 1 秒内从 GAE 数据存储中检索大量(>2000)实体?
我们的应用程序的某些部分需要加载大量数据(>2000 个实体)并在该数据集上执行计算。每个实体的大小约为 5 KB。
在我们最初的、幼稚的实现中,瓶颈似乎是加载所有实体所需的时间(2000 个实体约为 40 秒),而执行计算本身所需的时间非常短(<1 秒)。
我们尝试了几种策略来加快实体检索:
- 将检索请求拆分为多个并行实例,然后合并结果:~20 seconds for 2000 entity。
- 将实体存储在驻留后端的内存缓存中:约 5 秒用于 2000 个实体。
计算需要动态计算,因此在写入时进行预计算并存储结果在我们的情况下不起作用。
我们希望能够在一秒钟内检索到大约 2000 个实体。这在 GAE/J 的能力范围内吗?我们可以为这种检索实施任何其他策略吗?
更新:提供有关我们的用例和并行化结果的附加信息:
- 我们在数据存储区中有超过 200.000 个相同类型的实体,并且该操作仅用于检索。
- 我们用 10 个并行工作实例进行了实验,我们获得的典型结果可以在这个 pastebin中看到。将实体传输回主实例时所需的序列化和反序列化似乎会妨碍性能。
更新2:举例说明我们正在尝试做的事情:
- 假设我们有一个 StockDerivative 实体,需要对其进行分析以了解它是否是一项好的投资。
- 执行的分析需要基于许多外部因素(例如用户的偏好、市场状况)和内部因素(即来自实体的属性)的复杂计算,并且会输出一个单一的“投资得分”值。
- 用户可以请求根据其投资分数对衍生品进行排序,并要求提供 N 个得分最高的衍生品。
google-visualization - 寻找用于分析的托管后端业务数据存储
我想要一个简单的托管数据存储,用于许可商业应用程序。我想要以下功能:
- 对 CRUD 操作的类似 REST 的访问(主要是添加记录)
- 私有且经过身份验证
- 可以轻松与 Google Visualization API 等前端图表客户端集成
- 易于使用和设置
怎么样:* Google Fusion Tables * Google Cloud Services * Google BigQuery * Google Cloud SQL
或其他非谷歌产品。但我正在想象 Google Charts 与其后端数据服务之一之间的更清洁的集成。
优点,缺点,建议?
google-bigquery - 使用 BigQuery 进行日志分析
我正在尝试使用 BigQuery 进行日志分析。具体来说,我有一个 appengine 应用程序和一个 javascript 客户端,它们会将日志数据发送到 BigQuery。在 bigquery 中,我会将完整的日志文本存储在一列中,但也会将重要字段提取到其他列中。然后我希望能够对这些列进行临时查询。
两个问题:
1) BigQuery 在这个用例中是特别好还是特别坏?2) 如何设置循环日志?即我只想存储最后 N 个日志或最后 X GB 的日志数据。我看到不支持删除。
google-bigquery - 使用 BigQuery 进行实时分析
有没有办法使用 BigQuery 运行实时分析?我使用了 CSV 上传选项来启动一项工作并以离线模式加载数据,一旦加载完成就可以对其进行分析。但在有关 BigQuery 的公告中,提到了使用 BigQuery 进行实时分析。如何做到这一点?我们能否以涓流模式将来自 Google Cloud 数据库的数据(不更新)附加到 BigQuery 以进行实时分析?
作为旁注,我注意到 BigQuery CSV 数据加载比在我的本地 PC 上使用 10GB 数据文件运行的 LucidDB 和 InfiniDB 慢一个数量级。BigQuery 作业完成需要 34 分钟,而 InfiniDB 和 LucidDB 需要 5 分钟。与 InfiniDB 相比,BigQuery 的查询执行时间(对于简单聚合)慢两倍(6 秒对 3 秒,对于加载大约 30+ 百万条记录的 10GB 文件),但优于 LucidDB。
ubuntu - 安装 BigQuery
我尝试在 ubuntu 上安装大查询,但出现以下错误:
我该如何纠正这个问题?
更新:
我正在尝试安装此处找到的 google BigQuery 工具包...
http://code.google.com/p/google-bigquery-tools/downloads/list