考虑以下 2 个数据流
1. Front End Box ----> S3 Bucket-1
2. Front End Box ----> Kafka --> Storm ---> S3 Bucket-2
盒子中的日志正在传输到 S3 存储桶。要求是将流程 1 替换为流程 2。
现在需要在数据之间进行验证Bucket-1
,Bucket-2
以保证可以使用流 2。
尝试了以下技术选项:
1. Python : boto3 Apis
2. Qubole
两者都在有限的数据集上工作,qubole 比 python 脚本更具可扩展性。但是仍然需要很长时间才能完成(从未完成,必须在一夜之间运行后杀死)。我们正在这里查看 50 亿个条目。
询问
SELECT
count(*)
FROM
TableA LEFT OUTER JOIN TableB
ON TableA.id = TableB.id
WHERE
TableB.id IS NULL
AND TableA.id IS NOT NULL
问题
对工具有什么建议,如何更快地实现这一目标?
有什么方法可以避免加入吗?