我想为 hive 表创建一个代理键,但每次将数据放入表中时都可以复制一个代理键。其他表将通过代理键引用该表,并且可以重新生成该表以添加更多行,并且该关联不会被破坏。我的想法是基本上有一个表中所有列的复合键。
连接我的所有列并将该字符串的 md5 哈希用作对该行的简单查找是否合理?
我在此解决方案中看到的问题是:
- 如果行中的数据发生变化,关联仍然会被破坏
- 无法真正保证哈希值是唯一的(尽管使用我的数字,冲突的可能性很小)
数据注释:
- 数据按天划分,每天大约有 100k 行。
- 在某些情况下,两行具有完全相同的数据,如果它们最终具有相同的键就可以了。