这个问题与 DQS 性能严格相关。
我需要清理的“客户”表有 40,000,000 行……我使用子集创建了匹配策略(那里没有问题,我只使用了前 10,000 行)。
现在,当我想做一个数据质量项目时……我不能在一个项目中占用整个表……它就是不会响应……我一次只能处理 400,000 个,即使在那种情况下也需要将近 2 个小时……这不是最好的解决方案,因为我需要在 id 介于 1 到 400,000 之间的视图上进行项目。
这帮人有什么解决办法吗?
我也想知道……瓶颈在哪里?是CPU还是磁盘?
问候。