我有两个 pyspark 数据框。我想从 vindf.tx_hash 中不存在其“哈希”的 voutdf 中选择所有记录
如何使用 pyspark 数据框执行此操作。?我尝试了半联接,但最终出现内存不足错误。
voutdf = sqlContext.createDataFrame(voutRDD,["hash", "value","n","pubkey"])
vindf = sqlContext.createDataFrame(vinRDD,["txid", "tx_hash","vout"])