5

可能重复:
SQL Query JOIN with Table

CREATE EXTERNAL TABLE IF NOT EXISTS TestingTable1   (This is the MAIN table through which comparisons need to be made)
(
BUYER_ID BIGINT,
ITEM_ID BIGINT,
CREATED_TIME STRING
)

这是上面第一个表中的数据

**BUYER_ID**  |  **ITEM_ID**     |      **CREATED_TIME**   
--------------+------------------+-------------------------
 1015826235      220003038067       *2001-11-03 19:40:21*
 1015826235      300003861266        2001-11-08 18:19:59
 1015826235      140002997245        2003-08-22 09:23:17
 1015826235     *210002448035*       2001-11-11 22:21:11

这是 Hive 中的第二张表 - 它还包含有关我们正在购买的物品的信息。

CREATE EXTERNAL TABLE IF NOT EXISTS TestingTable2
(
USER_ID BIGINT,
PURCHASED_ITEM ARRAY<STRUCT<PRODUCT_ID: BIGINT,TIMESTAMPS:STRING>>
)

这是上面第二个表(TestingTable2)中的数据-

**USER_ID**    **PURCHASED_ITEM**
1015826235     [{"product_id":220003038067,"timestamps":"1004941621"},    {"product_id":300003861266,"timestamps":"1005268799"},    {"product_id":140002997245,"timestamps":"1061569397"},{"product_id":200002448035,"timestamps":"1005542471"}]

比较以便满足以下场景TestingTable2TestingTable1

在比较 from 之后,找到与 TestTable1 对应的AND不PRODUCT_ID匹配的AND 。TIMESTAMPSTestingTable2ITEM_IDCREATED_TIMEBUYER_ID(USER_ID)TestingTable1

因此,如果您查看TestingTable2此(最后)ITEM_ID 210002448035来自TestingTable1的数据与数据不匹配,TestingTable2 PRODUCT_ID- 200002448035 并且与时间戳类似。所以我想使用 HiveQL 查询显示以下结果。

**BUYER_ID**  |  **ITEM_ID**     |      **CREATED_TIME**          |  **PRODUCT_ID**    |     **TIMESTAMPS** 
--------------+------------------+--------------------------------+------------------------+----------------------
1015826235          *210002448035*           2001-11-11 22:21:11            200002448035           1005542471 
1015826235       220003038067           *2001-11-03 19:40:21*           220003038067          1004941621

谁能帮我这个。因为我是 HiveQL 的新手,所以有很多问题。

更新:-

我已经写了这个查询,但它没有按照我想要的方式工作。

select * from 
  (select * from 
     (select user_id, prod_and_ts.product_id as product_id, prod_and_ts.timestamps as timestamps 
      from testingtable2 LATERAL VIEW
      explode(purchased_item) exploded_table as prod_and_ts)
      prod_and_ts 
      LEFT OUTER JOIN testingtable1 
  ON ( prod_and_ts.user_id = testingtable1.buyer_id AND testingtable1.item_id =    prod_and_ts.product_id
     AND prod_and_ts.timestamps = UNIX_TIMESTAMP (testingtable1.created_time)
  )
  where testingtable1.buyer_id IS NULL) 
  set_a LEFT OUTER JOIN testingtable1 
  ON (set_a.user_id = testingtable1.buyer_id AND  
  ( set_a.product_id = testingtable1.item_id OR set_a.timestamps = UNIX_TIMESTAMP(testingtable1.created_time) )
 );

又一更新

根据user1166147评论。我根据他的查询写了我的查询。在蜂巢中,我猜INNER JOIN是简单地写的JOIN

这是我的以下查询。

select * from (select t2.buyer_id, t2.item_id, t2.created_time as created_time, subq.user_id, subq.product_id, subq.timestamps as timestamps 
from
(select user_id, prod_and_ts.product_id as product_id, prod_and_ts.timestamps as timestamps from testingtable2 lateral view explode(purchased_item) exploded_table as prod_and_ts) subq JOIN testingtable1 t2 on t2.buyer_id = subq.user_id 
AND subq.timestamps = unix_timestamp(t2.created_time)
WHERE (subq.product_id <> t2.item_id)
union all
select t2.buyer_id, t2.item_id as item_id, t2.created_time, subq.user_id, subq.product_id as product_id, subq.timestamps
from 
(select user_id, prod_and_ts.product_id as product_id, prod_and_ts.timestamps as timestamps from testingtable2 lateral view explode(purchased_item) exploded_table as prod_and_ts) subq JOIN testingtable1 t2 on t2.buyer_id = subq.user_id 
    and subq.product_id = t2.item_id 
    WHERE (subq.timestamps <> unix_timestamp(t2.created_time))) unionall;

运行上述查询后,我得到的结果为零。

最后一次更新:-

我的错,我在表格中没有准确的数据,所以这就是我没有得到结果的原因。是的,它正在执行上述实际查询。

4

2 回答 2

6

编辑 - 第 1 部分 好的 - 出于某种原因,我要解释一下自己 - 所以首先我偶然发现了这个问题,因为 SQL 标签,看到了 Hive,开始不看,只是跳过它。但后来我注意到已经过去一天了,你还没有得到任何答案。我看了看 - 我在发布的原始查询中看到了一个 SQL 逻辑更正,我知道这将是必要的并且会有所帮助,所以我发布只是因为没有人回答。我将尝试解决最后一个问题——但在那之后我会保留我的建议,因为我可能会给出不好的建议。祝你好运!我试过了!你现在似乎得到了答案,所以...

在 TSQL 中,我可以使用以下单个查询来解决整个问题

SELECT * 
FROM SO_Table1HIVE A
FULL OUTER JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND (B.t1time = A.Created_TIME OR B.PRODUCTID = A.ITEM_ID)

它将返回所有内容,仅包括您的匹配购买者 ID/用户 ID。它不会匹配在另一个表中的 time 或 product 中没有匹配项的 buyer_id/user_id 行,但它会在另一个表的字段中将其作为单独的行返回,并带有 NULLS。我不会以任何方式匹配这些 - 没有提供准确的信息来做到这一点,如下所述。

结束编辑第 1 部分

如果不能在 Hive 中FULL OUTER JOIN使用OR,满足原始条件的最简单方法是UNION ALL2 INNER JOINs。在其中一个查询中,除了加入匹配的 user_id 之外,还加入 PRODUCT_ID 并在您的WHERE查找中查找与 CREATED_TIME 不匹配的 TIMESTAMPS。在第二个查询中,除了加入匹配的 user_ids 之外,还加入时间 AND 以WHERE查找不匹配的产品。

编辑第 2 部分 - 评论问题附加标准的更新

如果我了解最后一个条件,则它是任一表中具有匹配的 user_id = Buyer_id 的任何记录,但没有其他匹配项。FULL OUTER JOINwith条件将OR返回它们,但提供的信息不足以将记录相互关联。我们可以很容易地识别它们,但无法将它们相互联系起来。如果您这样做并且在任一或两个表中都有多个不匹配的记录,则每个表将有多个条目。

我写的任何查询都试图在没有更多信息(可能还有)的情况下将它们联系起来,这都是猜测和不准确的。

例如,在第一个表中,如果有这 2 条(假样本)记录,除了 user_id 之外,第二个中没有任何匹配项:

1015826235  420003038067    2011-11-03 19:40:21.000
1015826235  720003038067    2004-11-03 19:40:21.000

表 2 中的 AND - 这些不匹配:

1015826235  {"product_id":520003038067,"timestamps":"10...
1015826235  {"product_id":620003038067,"timestamps":"10...

您可以识别它们,但如果您在没有更多条件的情况下匹配它们,您会得到 4 而不是 2:

1015826235  420003038067    2011-11-03 19:40:21.000 1015826235 520003038067
1015826235  420003038067    2011-11-03 19:40:21.000 1015826235 620003038067
1015826235  720003038067    2004-11-03 19:40:21.000 1015826235 520003038067
1015826235  720003038067    2004-11-03 19:40:21.000 1015826235 620003038067

我的建议是简单地识别它们并显示它们,如下所示。

BUYER_ID        ITEM_ID      CREATED_TIME           USER_ID PRODUCTID   timestamps  
----------------------------------------------------------------------
NULL            NULL         NULL                   1015826235  520003038067    2009-11-11 22:21:11.000
NULL            NULL         NULL                   1015826235  620003038067    2008-11-11 22:21:11.000
1015826235      420003038067 2011-11-03 19:40:21.000    NULL    NULL    NULL    
1015826235      720003038067 2004-11-03 19:40:21.000    NULL    NULL    NULL    

结束编辑第 2 部分 - 评论问题附加标准的更新 - 第 1 部分

我正在使用 TSQL,所以我无法用你的语法为你测试一个精确的查询,但是连接的概念是相同的,这将返回你想要的。我确实接受了您的查询并尝试了您的语法,并根据需要进行了修改。我在 TSQL 中测试过。您也许可以使用 HiveQL 中的功能并对其进行改进。还有其他方法可以做到这一点 - 但这是最​​直接的,这将转化为 HiveQL。

已移除,您得到了这部分,稍后包含

再次根据需要修改语法)**

SELECT *
FROM (
    SELECT BUYER_ID,ITEM_ID,CREATED_TIME,PRODUCT_ID,TIMESTAMPS 
    FROM testingtable2 LATERAL VIEW
        explode(purchased_item) exploded_table as prod_and_ts)
        prod_and_ts 
    INNER JOIN table2 A  ON A.BUYER_ID = prod_and_ts.[USER_ID] AND prod_and_ts.timestamps = UNIX_TIMESTAMP (table2.created_time) 
    WHERE prod_and_ts.product_id <> A.ITEM_ID
    UNION ALL
    SELECT BUYER_ID,ITEM_ID,CREATED_TIME,PRODUCT_ID,TIMESTAMPS 
    FROM testingtable2 LATERAL VIEW
            explode(purchased_item) exploded_table as prod_and_ts)
            prod_and_ts 
    INNER JOIN table2 A  ON A.BUYER_ID = prod_and_ts.[USER_ID] AND prod_and_ts.product_id = A.ITEM_ID
    WHERE  prod_and_ts.timestamps <> UNIX_TIMESTAMP (table2.created_time) 
) X

这是我测试过的 TSQL 版本,其中包含我的表名供参考:

SELECT * 
FROM(
    SELECT *
    FROM SO_Table1HIVE A
    INNER JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND B.t1time = A.Created_TIME 
    WHERE B.PRODUCTID <> A.ITEM_ID
    UNION ALL
    SELECT * 
    FROM SO_Table1HIVE A
    INNER JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND B.PRODUCTID = A.ITEM_ID  
    WHERE B.t1time <> A.Created_TIME  
 ) X

*编辑第 3 部分 - 评论问题附加标准的更新 - 第 2 部分

在 TSQL 中,整个查询(无联合)可以使用FULL OUTER JOIN连接OR条件运行

SELECT * 
FROM SO_Table1HIVE A
FULL OUTER JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND (B.t1time = A.Created_TIME OR B.PRODUCTID = A.ITEM_ID)

如果您不能简单地执行上述操作,对于新条件的 SQL 逻辑 - 从两个表中获取不匹配的那些并像NULL在另一个表中一样显示它们,使用RIGHT JOINand LEFT JOINRIGHT JOIN将抓取第一个表中的任何内容,匹配第二个和第二个中的所有内容,并LEFT执行相反的操作。将新查询添加到您的UNION.

TSQL 示例 - 针对 HIVE 进行修改

SELECT * 
FROM SO_Table1HIVE A
RIGHT JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND (B.t1time = A.Created_TIME    OR B.PRODUCTID = A.ITEM_ID)
WHERE A.BUYER_ID IS NULL 
UNION ALL
SELECT * 
FROM SO_Table1HIVE A
LEFT JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] AND (B.t1time = A.Created_TIME OR    B.PRODUCTID = A.ITEM_ID)
WHERE B.[USER_ID] IS NULL

或者,如果您想抓取它们并将它们匹配为重复项,请添加到UNION

TSQL

SELECT * 
FROM SO_Table1HIVE A
JOIN SO_Table2HIVE B ON A.BUYER_ID = B.[USER_ID] 
WHERE B.t1time NOT IN(SELECT Created_TIME FROM SO_Table1HIVE)
AND A.Created_TIME  NOT IN(SELECT t1time FROM SO_Table2HIVE) 
AND B.PRODUCTID NOT IN(SELECT ITEM_ID FROM SO_Table1HIVE)
AND A.ITEM_ID NOT IN(SELECT PRODUCTID FROM SO_Table2HIVE) 

再次,祝你好运!

于 2012-07-09T16:09:19.543 回答
1

您可能需要使用Hive 转换功能并有一个自定义减速器来匹配两个表中的记录: t1 和 t2 其中 t1 只是 TestingTable1 和 t2 是

   SELECT
      user_id,
      prod_and_ts.product_id as product_id,
      prod_and_ts.timestamps as timestamps
   FROM 
      TestingTable2 
      LATERAL VIEW explode(purchased_item) exploded_table as prod_and_ts

正如我在你的另一个问题中所解释的那样

FROM (
   FROM (
      SELECT
         buyer_id,
         item_id,
         created_time,
         id 
      FROM (
         SELECT
            buyer_id,
            item_id,
            created_time,
            't1' as id
         FROM
            TestingTable1 t1
         UNION ALL
         SELECT
            user_id as buyer_id,
            prod_and_ts.product_id as item_id,
            prod_and_ts.timestamps as created_time,
            't2' as id
         FROM 
            TestingTable2
            LATERAL VIEW explode(purchased_item) exploded_table as prod_and_ts
         )t
      )x
      MAP
         buyer_id,
         item_id,
         created_time,
         id
      USING '/bin/cat'
      AS
         buyer_id,
         item_id,
         create_time,
         id
      CLUSTER BY
         buyer_id
      ) map_output
   REDUCE 
      buyer_id,
      item_id,
      create_time,
      id
   USING 'my_custom_reducer'
   AS
      buyer_id,
      item_id,
      create_time,
      product_id,
      timestamps;

上面的查询有 2 个不同的部分。第一部分是“MAP”,另一部分是“REDUCE”。在这两个部分之间是一个称为shuffle的阶段(由 表示CLUSTER BY buyer_id),它会自动处理我的 Hive。查询的 Map 部分从表中读取数据并传递一个标识符(称为id,表示记录来自哪些表)。Shuffle 阶段将所有记录分组到每个buy_id。Reduce 阶段将接收给定buyer_id的所有记录并仅发出满足匹配条件的记录。您必须根据匹配标准自己编写减速器。您可以用您选择的任何语言编写它。保证具有相同buyer_id 的所有记录都将进入相同的reducer 脚本。

可能有更简单的方法,但这是我现在能想到的方法。祝你好运!要进一步了解我选择这种方法的原因,请在此处查看我最近的回答

于 2012-07-09T23:09:31.410 回答