2

问题标题可能不正确,因为我的部分问题是尝试对问题有更多了解。

我正在寻找确保导入数据库的数据(简单示例:Excel 表到 Access 数据库)应该使用相同的模式并且也应该对业务需求有效的优势。

我有一个不包含规范化数据的 Excel 表和一个带有规范化表的 Access 数据库。

Excel 表格来自多个第三方,没有一个与彼此或数据库保持相同的格式。

一些来源也没有提供所有相关数据。

可以提供的示例

contact_key、日期、contact_title、reject_name、reject_cost、count_of_unique_contact

count_of_unique_contact 派生自不同的contact_title,不应导入。有时不提供contact_key。标题有时是未知的,并以“n/a”、“name = ??1342”、“#N/A”等方式传入,相当随机。reject_name 经常拼写错误。有时甚至不提供这些字段,例如缺少日期和联系密钥。

我正在尝试查找信息以帮助解释上述问题。仅与不正确的数据或字段相关的问题使得数据库中难以获得有用的数据,例如在未提供日期的情况下无法报告一个月内拒绝成本的趋势。规范化 excel 文件对我来说不是一个可用的选项。

请求 Excel 文件中的值和字段以匹配业务需求,并且每个发送它们的第三方的格式都相同是我想要做的,但该请求被置若罔闻。

我想向客户解释,输入虚假数据并一直检查无效/现有的拒绝/联系是错误的,如果没有持续维护一个糟糕的系统,这样做会失败,或者充其量是困难的。

有没有人有关于这个问题的任何信息?

谢谢

4

1 回答 1

3

这是一个常见的问题;这在数据处理圈中被称为“垃圾进,垃圾出”。从本质上讲,您遇到的问题是给定的数据质量很差;您正确地认识到问题在于很难(如果不是不可能的话)使用这些数据来提取任何有用的信息。

在某种程度上,这是一个应该从源头上解决的问题;无论您的数据来源是什么,他们都需要确信数据质量必须提高。在短期内,您可以清理您的数据;该术语是指删除或清理坏条目以使其余数据(“好”数据)可导入数据库。根据坏数据的百分比,您可能会也可能无法在导入后对已清理的数据做有用的事情。

在某些时候,由于您没有对数据质量进行管理,您只需向他们表明系统没有按预期工作,因为数据质量很差。他们需要在那时改进他们的流程,以提高您在那时获得的数据的质量。不过,在那之前,请继续争取更好的数据;调查清理数据的过程,看看你能用剩下的数据做什么。祝你好运!

于 2009-06-16T00:05:02.233 回答