我正在使用两个 Dataframes 在 Microsoft Azure Databricks 中工作。
我已经有一个包含我的“Masterdata”的数据框。我每天还收到一个包含“所有”记录的完整数据包。但是在这个 Dataframe 中的记录可能会发生变化,并且记录也可以被删除和添加。
在两个 Dataframes 之间获取这个 delta 或 changeset 数据的最好也是最简单的方法是什么?
更新 DataFrame 1 -> 我每天都得到
customer score
MERCEDES 1.1
CHRYSLER 3.0
DataFrame 2 -> 我的主人
customer score
BMW 1.1
MERCEDES 1.3
那么我需要得到什么:
customer score
BMW 1.1 -> cause was deleted in receiving data
MERCEDES 1.3 -> cause was value changed
CHRYSLER 3.0 -> cause was added new


