2

我正在尝试加入 2 个表,每个表有 57,191 行。BigQ 在内部/左侧寻找更大的桌子,在右侧寻找更小的桌子。当我在左侧使用表 B 运行它时,它错误为“必须首先出现大表 A”。当我切换查询并将表 A 放在 From 子句中时,它会出错,因为“大表 B 必须首先出现”。所以当我按照它的指示去做时,它并没有修复它,而是建议我的第一次(不正确的)尝试,除非我以某种方式搞砸了它。

有点讽刺的是,如果两张桌子的大小相同,它会根据大概一张不小于另一张来决定一张更大。我正在尝试找到一个解决方案,其中不包括向其中一个表添加无意义的行,然后在连接工作后尝试将其删除,(因为 BigQ 现在没有加载我的单行 csv 文件,我确信它是由于我的错误。)

Google SQL 语法连接规则似乎是

"join_type Bigquery 支持 INNER(默认)和 LEFT OUTER 连接。table_2 这是连接中的第二个表,必须很小,并且将连接到出现在 FROM 子句中的表。注意,这可以是表name 或另一个 SELECT 子句,在这种情况下,您必须提供别名。 join_condition_1, ..., join_condition_N, ... 连接条件的集合,它必须是相等条件的集合,所有这些条件都必须满足一行被包含在结果中。(也就是说,我们只支持将这些条件用 AND 连接。)"

我正在运行的实际 SQL 是

SELECT lt.activeprosperloans,[fieldsredacted], ...
FROM prosperloans1.listings2 AS lt
JOIN prosperloans1.zjoinedperfloans as ln
ON lt.key = listingkey;

实际错误为:错误:大表 prosperloans1.zjoinedperfloans 必须出现在连接查询中作为最左边的表

谢谢肖恩

4

2 回答 2

3

请注意,现在您可以使用 JOIN EACH,有效地解决问题。

您的查询将变为:

SELECT lt.activeprosperloans,[fieldsredacted], ...
FROM prosperloans1.listings2 AS lt
JOIN prosperloans1.zjoinedperfloans as ln
ON lt.key = listingkey;

从文档:

如果可能,使用不带 EACH 修饰符的 JOIN 以获得最佳性能。当表大小对于 JOIN 来说太大时,请使用 JOIN EACH。

https://developers.google.com/bigquery/docs/query-reference#joins

于 2013-05-30T18:24:11.680 回答
1

由于回答了这个问题,BigQuery 添加了 JOIN EACH,这是一种连接两个大表的方法。有关如何使用 JOIN EACH 的说明,请参阅 Fh 的答案。

此响应的其余部分用于历史目的:一个大表(用于连接)超过 7 MB。为了进行连接,整个小表被发送到集群中的每个节点,因此我们对其进行了相当大的限制。可能尽管两个表的行数相同,但一个表大于 7 MB,而另一个表较小。

减小其中一个表大小的一种方法是在查询中应用过滤器和列过滤器,并将结果保存为另一个临时表,然后将 JOIN 应用于临时表。例如,如果您的表中有 10 列跨越一个月的数据,但您只需要 3 列用于连接查询和最后一天的数据,您可以首先选择这三列和最近的数据,并给出结果姓名。然后你可以对该表进行连接。

于 2012-07-31T01:22:03.157 回答