3

我试图了解谷歌的大查询和 Azure 数据湖 U-SQL 之间的区别或优缺点。哪个更好 ?我已经详尽地搜索了最大的区别是什么,但找不到。

4

1 回答 1

9

好的,这是两种技术之间的一些根本区别。

数据形状

  1. 谷歌大查询——他们要求你将你的数据转换成特定的形状,比如 json、csv 或 Avro。
  2. 数据湖- 他们只是要求您转储湖存储中的所有内容,然后您可以在其上运行 usql 查询。

数据大小

谷歌大查询对文件大小有限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota虽然它们是相当大的限制

Data Lake - 官方对文件大小没有限制,您实际上可以从 PB 文件开始。

最大的区别在于查询模型之间,但在此之前必须知道您也可以在 Azure 数据湖存储之上运行 HBase 工作负载,而 HBase 实际上是 google 大表的开源实现,您可以看到许多其他细微差别这里http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

google big query 本身并不是编译查询,而 USQL 是 SQL 类语法与 CLR 功能的组合,USQL 查询首先编译然后运行数据存储,这允许编写自定义函数以使用他们的查询来解析或处理不同形式的数据。甚至可以使用 Azure 数据湖工具可视化 USQL 查询的执行计划。Big query 和 USQL 都非常容易理解和使用。

验证

  1. Google 大查询具有标准 API 身份验证 https://cloud.google.com/bigquery/authentication
  2. ADL - 应用程序和用户的身份验证由 Azure AD 控制。

作为一个大数据平台,两者都需要尊重,但我个人认为 Azure Data Lake 是一个更好的实现,因为它可以灵活地与 spark、storm、hive、pig 等开源项目一起工作,而大表将你的能力限制在谷歌生态系统。

通过我的推特账号@brijrajsingh 与我联系,如果您可以在 GIDS 班加罗尔顺便拜访一下,我将在 2016 年 4 月 29 日举办一场关于数据湖的会议

于 2016-04-26T10:03:40.687 回答