问题标签 [data-quality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 测量数据质量的技术和实践是什么?
如果我有大量描述物理“事物”的数据,我该如何衡量这些数据与它应该代表的“事物”的匹配程度?
一个例子是,如果我有一个装有 12 个小部件的板条箱,并且我知道每个小部件重 1 磅,那么应该有一些数据质量“检查”以确保箱子重 13 磅。
另一个例子是,如果我有一盏灯和一个代表该灯的图像,它应该看起来像一盏灯。也许图像尺寸应该与灯尺寸具有相同的比例。
除了图像,我的数据是 99% 的文本(包括高度、宽度、颜色……)。
我在学校学习过人工智能,但除此之外几乎没有做过什么。
标准的人工智能技术是可行的吗?如果是这样,我如何将问题映射到算法?某些语言在这方面是否比其他语言更容易?他们有更好的图书馆吗?
谢谢。
.net - 是否有 .NET 开发工具可以帮助充当数据问题报告者和跟踪者?
我需要构建一个生成数据异常报告的系统(例如,这个值是陈旧的,因为它在 x 天内没有更新)。一旦他们有关于数据质量问题的每日报告,我的用户希望拥有一堆过滤功能(带有可自定义的公共和私有过滤器),然后能够直接在报告界面中对问题进行分类和评论。因此,一个问题可以归类为“没什么大不了的”或类似的东西,并输入一条评论来解释为什么一切都好。然后,即使该问题背后的数据异常仍然存在,该问题也会从一般问题报告中排除。
所以它看起来像一个数据质量报告工具,但它的行为也像一个问题跟踪器。我考虑过在我们的一个错误跟踪工具中为我们发现的每个数据异常自动生成一个问题,这样我们就可以免费获得过滤器和工作流,但我认为这不会成功。错误列表不是一个很好的报告界面。我一直在试图弄清楚 Crystal Reports 是否会让我做这样的事情,我可以对报告内容进行评论和分类,但我在他们的网站上找不到任何让我认为你可以的东西。
看起来这在功能上是相当通用的,我希望我不需要从头开始构建它,因为涉及的时间框架。以前有人见过这样的事情吗?是否有 .NET 工具可以使这更容易,并且可能解决棘手的问题,例如构建公共和私有过滤器以及通过报告界面同时编辑记录。
非常感谢您可能有的任何想法。
data-quality - 是否有用于匹配姓名/地址数据的免费、低成本或开源工具?
这个问题与匹配姓名/地址数据的工具有关。SAS、Oracle、Microsoft 等提供了许多商业工具,允许对来自多个来源的个人或公司的名称进行去重或合并。
但是,在阅读了前面提到的问题的答案后,我想知道为什么一个看似有趣的问题没有收到任何提到可以解决该问题的开源项目的答案。
您是否知道任何开源项目或算法来实现所谓的“记录链接”、“记录合并”或“集群”?
usability - 接受长帐号的最佳可用性实践
一位用户最近询问(好的,抱怨)为什么我们网站上的 19 位帐号被分成 4 个长度为 的单独文本框[5,5,5,4]
。作为最初的设计师,我无法回答这个问题,但我一直认为这样做是为了保持数据质量并可能提供更好的用户体验。
其他更通用的示例包括带区号的电话(10 位连续数字与 [3,3,4]),当然还有 SSN(9 位与 [3,2,4])
这让我想知道是否有关于该主题的任何已知标准?你什么时候分开你的ID#?特别是关于用户体验和最大限度地减少数据输入错误。
database - 数据质量数据库模型
需要将数据库模型的示例附加到数据库以提高数据质量。最好的答案形式至少是在 MySQL 中可执行的 DDL;其他 RDMS DDL 还可以,我将发布另一个问题,要求移植代码。
一个好的解释将是一个巨大的优势。
问题、评论、反馈等——只是评论,谢谢!!
csv - 哪些软件可用于数据质量检查
我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件(.csv)例如,正确的大写(允许各州保持大写和唯一的姓氏),识别特定单词的字数一个字段,以及一些其他自定义规则。任何指导将不胜感激。
oracle - 使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值
我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录。数据存在一些严重的数据质量问题,我也在尝试解决这些问题,但在我得到批准之前,我会被我所获得的数据所困扰。
我可用的表格列是:
该SOUNDEX
功能相对有限,但该UTL_MATCH
软件包似乎使用 Jaro Winker 算法提供了更好的匹配级别。
是否有人实施了一种可靠的方法来匹配此类数据,而不是重新发明轮子?
需要解决的数据质量问题:
- 邮政编码虽然是强制性的,但并不总是完全输入。
- 地址数据质量相对较差,地址输入没有固定格式(即有些可能将 line1 设置为“Flat 1”,而有些可能将 line1 设置为“Flat1, 22 Acacia Ave”)。
- 名字列可以包含一个名字首字母、一个完整的名字,有时也可以包含多个名字。
例如我正在考虑:
连接所有地址字段并将 Jaro Winkler 算法应用于完整地址,并结合对连接在一起的全名的类似测试。
可以直接比较出生日期以进行匹配,但由于大量数据仅与之匹配是不够的。
Oracle 10g R2 企业版。
欢迎任何有用的建议。
regex - 数据仓库中的数据质量算法
我正在寻找一种好的算法/方法来检查数据仓库中的数据质量。因此,我希望有一些算法“知道”值的可能结构,然后检查这些值是否是该结构的成员,然后确定它们是否正确/不正确。
我考虑过定义一个正则表达式并检查每个值是否合适。
这是一个好方法吗?有一些好的选择吗?(有研究论文吗?)
database - “数据完整性”和“数据质量”这两个术语有区别吗?
今天面试被问到这个问题,不知道怎么回答。
任何人都可以提供有关差异的见解吗?
informatica-powercenter - Informatica 数据质量 - 匹配分析
在我们的重复分析要求中,输入数据有 1418 条记录,其中 1380 条记录是重复记录。
在与 PowerCenter 集成的 IDQ 中使用匹配分析(使用的密钥生成器、匹配器、关联器、合并器)时,除 8 条记录外,所有重复项均已消除。
在通过排除这些记录来执行工作流时,重复出现在其他记录中,而在之前的运行中没有出现重复。
谁能说出为什么会发生这种不匹配?