我有一个有点复杂的数据转换任务,我无法在 Google Cloud Data prep 中弄清楚。源数据是选民文件信息。CSV 有 10 列(以及许多其他列),其中包含选民的选举参与历史。见截图。简而言之,您投票的最近一次选举包含在 text_election_code_1 中,第二次最近的选举包含在 text_election_code_2 中,依此类推。单元格的值是选举本身的代码,即 GN2016 = 2016 大选。
理想情况下,我想将其转换为查找矩阵来回答诸如“在 GN2016 中具有 id# 的选民是否投票?”之类的问题。和“GN2012 总共有多少人投票?”
就目前的数据而言,很难按选举代码进行计数,因为“GN2012”可能位于 10 列中的任何 1 列中。即在 GN2012 下面的屏幕截图中,前 2 行的第 3 列和第 3 行的第 2 列。
我以前用 SQL 做过这个,但我不知道如何在云数据准备中做到这一点。谁能引导我朝着正确的方向前进?
当前数据形状(屏幕截图中省略了其他 PII 列)
理想的数据形状(也许)