“google-bigquery”的相关标签问题

0 投票

5 回答

428 浏览

database - 云中的 MapReduce

除了 Amazon MapReduce，我还有哪些其他选项可以处理大量数据？

2010-06-05T19:14:11.013

0 投票

1 回答

294 浏览

google-app-engine - 如何分析和查询大块数据

我需要：

1、分析http日志的大文件

我正在考虑使用 mapreduce，但我不确定在哪里托管它。我应该使用 App Engine Mapper 或 EC2+MapReduce 还是直接在我的 VPS 中使用它？
除了 MapReduce 之外的其他建议？

2.保存并查询结果

在分析完所有数据后，我需要将其保存并以最佳方式呈现给用户。我应该如何保存结果？MongoDB 是一个很好的解决方案吗？

谢谢。

问候。

google-app-engine amazon-s3 amazon-ec2 mapreduce google-bigquery

2011-01-15T23:28:44.670

0 投票

3 回答

2595 浏览

google-bigquery - Google BigQuery 是否需要架构？

我想使用 bigquery 来存储日志。它是否需要像 Mysql 和其他 RDBMS 这样的固定模式，或者它像没有模式的 nosql？

google-bigquery

2011-06-21T05:55:44.710

0 投票

3 回答

37577 浏览

hadoop - 什么是谷歌的 Dremel？它与 Mapreduce 有何不同？

此处描述了Google 的 Dremel 。Dremel 和 Mapreduce 有什么区别？

hadoop mapreduce google-bigquery abstraction

2011-07-07T08:03:39.520

0 投票

2 回答

1693 浏览

r - 使用 R 与 SimpleDB 或 BigQuery 或使用 PHP 与 SimpleDB 的建议

我目前正在研究生成产品推荐的系统，例如亚马逊上的产品推荐：“买这个的人也买了这个..”

当前场景：

提取客户端的谷歌分析数据并将其插入数据库。
在客户端的网站上，在加载产品页面时，会调用 API 以获取正在查看的产品的推荐。
当 API 收到产品 ID 作为请求时，它会在数据库中查找并检索（使用关联规则）推荐的产品 ID 并将它们作为响应发送。
这些产品ID的列表将被处理以在客户端获取产品详细信息（图像，价格..）并显示在网站上。
目前我在 AMAZON EC2 上使用 PHP 和 MYSQL 以及 gapi 包和 REST api 存储。

我的问题是： 现在，如果我必须在以下选项中进行选择，那将是实现上述概念的最佳选择。

PHP 与 SimpleDB 或 BIGQuery。
带有 BIGQuery 的 R 语言。
RHIPE-（R 和 hadoop）与 SimpleDB。
Apache Mahout。

请帮忙！

r hadoop amazon-simpledb mahout google-bigquery

2011-08-19T12:33:48.640

0 投票

5 回答

1352 浏览

java - 如何在 1 秒内从 GAE 数据存储中检索大量（>2000）实体？

我们的应用程序的某些部分需要加载大量数据（>2000 个实体）并在该数据集上执行计算。每个实体的大小约为 5 KB。

在我们最初的、幼稚的实现中，瓶颈似乎是加载所有实体所需的时间（2000 个实体约为 40 秒），而执行计算本身所需的时间非常短（<1 秒）。

我们尝试了几种策略来加快实体检索：

将检索请求拆分为多个并行实例，然后合并结果：~20 seconds for 2000 entity。

将实体存储在驻留后端的内存缓存中：约 5 秒用于 2000 个实体。

计算需要动态计算，因此在写入时进行预计算并存储结果在我们的情况下不起作用。

我们希望能够在一秒钟内检索到大约 2000 个实体。这在 GAE/J 的能力范围内吗？我们可以为这种检索实施任何其他策略吗？

更新：提供有关我们的用例和并行化结果的附加信息：

我们在数据存储区中有超过 200.000 个相同类型的实体，并且该操作仅用于检索。

我们用 10 个并行工作实例进行了实验，我们获得的典型结果可以在这个 pastebin中看到。将实体传输回主实例时所需的序列化和反序列化似乎会妨碍性能。

更新2：举例说明我们正在尝试做的事情：

假设我们有一个 StockDerivative 实体，需要对其进行分析以了解它是否是一项好的投资。

执行的分析需要基于许多外部因素（例如用户的偏好、市场状况）和内部因素（即来自实体的属性）的复杂计算，并且会输出一个单一的“投资得分”值。

用户可以请求根据其投资分数对衍生品进行排序，并要求提供 N 个得分最高的衍生品。

java performance google-app-engine google-cloud-datastore google-bigquery

2012-01-05T14:14:06.070

0 投票

1 回答

210 浏览

google-visualization - 寻找用于分析的托管后端业务数据存储

我想要一个简单的托管数据存储，用于许可商业应用程序。我想要以下功能：

对 CRUD 操作的类似 REST 的访问（主要是添加记录）
私有且经过身份验证
可以轻松与 Google Visualization API 等前端图表客户端集成
易于使用和设置

怎么样：* Google Fusion Tables * Google Cloud Services * Google BigQuery * Google Cloud SQL

或其他非谷歌产品。但我正在想象 Google Charts 与其后端数据服务之一之间的更清洁的集成。

优点，缺点，建议？

google-visualization google-fusion-tables google-bigquery google-cloud-storage

2012-03-19T18:41:51.793

0 投票

3 回答

2601 浏览

google-bigquery - 使用 BigQuery 进行日志分析

我正在尝试使用 BigQuery 进行日志分析。具体来说，我有一个 appengine 应用程序和一个 javascript 客户端，它们会将日志数据发送到 BigQuery。在 bigquery 中，我会将完整的日志文本存储在一列中，但也会将重要字段提取到其他列中。然后我希望能够对这些列进行临时查询。

两个问题：

1) BigQuery 在这个用例中是特别好还是特别坏？2) 如何设置循环日志？即我只想存储最后 N 个日志或最后 X GB 的日志数据。我看到不支持删除。

google-bigquery

2012-05-01T23:19:31.633

0 投票

5 回答

4597 浏览

google-bigquery - 使用 BigQuery 进行实时分析

有没有办法使用 BigQuery 运行实时分析？我使用了 CSV 上传选项来启动一项工作并以离线模式加载数据，一旦加载完成就可以对其进行分析。但在有关 BigQuery 的公告中，提到了使用 BigQuery 进行实时分析。如何做到这一点？我们能否以涓流模式将来自 Google Cloud 数据库的数据（不更新）附加到 BigQuery 以进行实时分析？

作为旁注，我注意到 BigQuery CSV 数据加载比在我的本地 PC 上使用 10GB 数据文件运行的 LucidDB 和 InfiniDB 慢一个数量级。BigQuery 作业完成需要 34 分钟，而 InfiniDB 和 LucidDB 需要 5 分钟。与 InfiniDB 相比，BigQuery 的查询执行时间（对于简单聚合）慢两倍（6 秒对 3 秒，对于加载大约 30+ 百万条记录的 10GB 文件），但优于 LucidDB。

google-bigquery

2012-05-02T13:28:42.713

0 投票

2 回答

931 浏览

ubuntu - 安装 BigQuery

我尝试在 ubuntu 上安装大查询，但出现以下错误：

我该如何纠正这个问题？

更新：

我正在尝试安装此处找到的 google BigQuery 工具包...

http://code.google.com/p/google-bigquery-tools/downloads/list

ubuntu google-bigquery

2012-05-03T04:36:47.920

问题标签 [google-bigquery]

1、分析http日志的大文件

2.保存并查询结果

Reference