标题可能令人困惑,所以我想介绍一下我目前的问题。
请想象以下情况:系统存储设备的问题,应由合格的工作人员修复。我有表“问题”:
- 标识为 PK
- workerid FK
- 描述问题是否已解决或未解决的状态
- 预计完成时间
- 实际完成时间
和其他列。我还有一个数据仓库,它将存储“问题”并描述这些“工人”的表现(主要是工作时间)。
在 ETL 过程中,最大的问题是“未解决的问题”。我可能有两种可能:
a) 处理只解决了“问题”,直到它们完成才解决,然后等到它们完成并处理它们。但是,此任务不会包含在我的报告中,这可能需要很长时间才能完成,这在业务方面可能至关重要。
b) 处理已解决和未解决的问题,Fact 表中的 PK 可以是 issueId 和 status。但随后我将存储几乎相同的问题,这些问题可能很奇怪,并且难以分析。
这是常见的情况吗?这两种可能性中哪一种看起来更合理?或者可能还有其他更好的方法来做到这一点?