0

我有一个有点复杂的数据转换任务,我无法在 Google Cloud Data prep 中弄清楚。源数据是选民文件信息。CSV 有 10 列(以及许多其他列),其中包含选民的选举参与历史。见截图。简而言之,您投票的最近一次选举包含在 text_election_code_1 中,第二次最近的选举包含在 text_election_code_2 中,依此类推。单元格的值是选举本身的代码,即 GN2016 = 2016 大选。

理想情况下,我想将其转换为查找矩阵来回答诸如“在 GN2016 中具有 id# 的选民是否投票?”之类的问题。和“GN2012 总共有多少人投票?”

就目前的数据而言,很难按选举代码进行计数,因为“GN2012”可能位于 10 列中的任何 1 列中。即在 GN2012 下面的屏幕截图中,前 2 行的第 3 列和第 3 行的第 2 列。

我以前用 SQL 做过这个,但我不知道如何在云数据准备中做到这一点。谁能引导我朝着正确的方向前进?

当前数据形状(屏幕截图中省略了其他 PII 列)

选举历史列示例

理想的数据形状(也许)

计算的理想数据形状

4

1 回答 1

1

我决定反对“宽”表,而选择“长”表。毕竟使用将列值转换为行的“unpivot”选项很容易完成。这个例子很有帮助:https ://cloud.google.com/dataprep/docs/html/Analyze-across-Multiple-Columns_57344575

于 2018-08-30T01:29:02.730 回答