我有几个大表(总共约 1 亿行),它们都具有相似的架构:它们在某个时间点记录对象 (u_id) 的某些设置
u_id | x | y | time
---------------------------
1 | 2 | 3 | [timestamp]
1 | 1 | 3 | [timestamp]
2 | 1 | 2 | [timestamp]
2 | 2 | 5 | [timestamp]
3 | 3 | 2 | [timestamp]
我现在想将这些表组合成一个包含所有数据的大表。但是我想让 u_ids 保持唯一。显然每个源表确实有例如 u_id 1。当组合结果表中的数据时,条目应该仍然是可区分的(但是我不需要将它们关联回它们的原始值)。这只需要执行一次,因此性能无关紧要。
我的第一个想法是在将每个 u_id 写入目标之前为其添加一个前缀(如a_
、b_
等),但这显然会引入开销。我希望目标表使用 AI 值来实现最小开销,但我不知道如何实现这一点,因为每个源u_id
都可以有多个(几千个)条目。