1

我真的是 GCP 数据准备的新手,现在正在尝试创建一个配方,但我不知道该怎么做。

总之,我有 2 个文件,第一个包含此列: NAME,CONTRY_CODE, ...

第二个是: COUNTRY_CODE, COUNTRY_NAME

如何将第一个数据集中的COUNTRY_CODE替换为第二个数据集的COUNTRY_NAME(与相应的COUNTRY_CODE匹配)?

提前致谢!

4

2 回答 2

0

对于任何试图制作这种东西的人。您可以使用Dataprep! 中的Lookup属性来实现它。

只需选择要更改的列(在我的情况下为COUNTRY_CODE),然后选择Lookup -> Pick a Dataset(在我的情况下为第二个)。它将按预期取代它!

于 2019-04-11T17:10:55.673 回答
0

虽然 Lookup 答案可以正常工作,但该JOIN选项可能是更好的可扩展性解决方案,因为它支持远程端的多个列、显示匹配率、允许模糊匹配以及许多其他好处(例如忽略匹配中的空格)。您还可以选择连接类型来控制输出和缺失行的处理方式。

从语义上讲,这两个选项并没有太大的不同,而且我还没有看到真正的性能差异——但我已经能够通过使用这样的 Join 来简化其中的一些操作:

显示简单加入操作的 Google Cloud DataPrep 步骤菜单

于 2019-04-12T18:28:55.630 回答