问题标签 [data-quality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中的数据预处理以删除字符串中的重复项
我正在进行数据预处理,但遇到了一个问题。我有Telma 2525 mg tablet 之类的数据。我希望将其转换为 Telma 25 mg 片剂。可以这样做吗?
谢谢
sql - 使用格式拆分全名:{Last, First Middle} 综合案例
我的客户将姓名数据作为名称字符串发送给我,其中包括单个条目中的姓氏、名字和中间名。我需要将它们分成姓氏、名字和中间名。我在网上找到了一些脚本,但它们不能满足我的目的,因为它们要么 (1) 使用不同的格式,要么 (2) 不能很好地处理边缘情况。请参阅以下示例:
- 南丁格尔,佛罗伦萨 -> 佛罗伦萨南丁格尔
- 邦德,詹姆斯邦德 -> 詹姆斯邦德邦德
- 雅培,埃德温 A. -> 埃德温 A. 雅培
有人可以帮我编写一个 SQL Server 脚本,将一个字符串拆分成我正在寻找的各个部分吗?
arabic - tFuzzyMatch 显然不适用于阿拉伯文本字符串
我在 talend open studio for data integration v5.5.1 创建了一份工作。
我试图在两个客户名称列之间找到匹配项,一个是查找,另一个包含脏数据。
当客户名称为英文时,作业按预期运行。但是,对于阿拉伯名称,无论我使用的底层匹配算法(levenschtein、metaphone、双变音素)如何,即使对于 levenschtein 算法 min 1 max 50 的边界松散,也只能找到完全匹配。
我怀疑这与字符编码有关。我应该如何进行?我可以在 Talend 中使用 unicode 甚至 UTF-8 解释进行操作吗?
我正在通过 tFileInputExcel 使用 excel 数据源
frameworks - 数据质量框架定义问题
有人可以帮我定义一个数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法。
data-quality - 计算和报告数据完整性
一段时间以来,我一直致力于测量数据的完整性并为 HRIS 系统创建可操作的报告。
到目前为止,我一直使用 Excel,但现在报告的要求已经稳定,并且对更快响应时间的需求增加了,我想将工作提升到另一个层次。同时我也希望有更详细的选项来区分不同的单位。
例如,我正在查看缺少的字段。因此,对于每家公司的每位员工,我只想计算缺少多少字段。
对于其他领域,我希望验证数据——例如生日与招聘日期的比较、不同值的阈值、员工组与责任级别的比较等等。
我的问题是从这里搬到哪里。在处理导入列表、对列表中的字段进行评估然后在公司和其他级别上对其进行量化时,是否有任何语言比其他语言更好?我希望能够从我们不同的系统中提取数据,然后让一个程序进行所有计算并以某种方式总结结果。(我认为这是一次很好的学习经历。)
bigdata - tMatchGroup 在 Talend Open Studio for Big Data 中的位置
我正在使用 Talend Open Studio for Big Data 版本 TOS_DQ-20141207_1530-V5.6.1.zip 学习数据质量。
根据我的问题,我想使用 tMatchGroup 但我意识到它没有出现在 Talend Studio 的调色板中。在 help.talend.com 中,他们说我必须订阅“Talend 平台产品”之一。( https://help.talend.com/display/TalendsComponentsReferenceGuide54EN/tMatchGroup )
谁能告诉我如何找到这个平台?我做了一些研究,但我不知道它到底在哪里。
非常感谢。p/s: 对不起我的英语不好。
informatica - 使用 infacmd 命令运行时未获取 IDQ 日志
我们正在运行一个运行已部署 IDQ 映射的 shell 脚本。我尝试在 unix 目录中查看它是否创建了映射日志文件,但我看不到哪里。
我检查了"" <infa_home> "
文件夹下的各种目录,但我无法跟踪日志文件。
如果你也遇到过同样的情况,请告诉我。
machine-learning - 使用不准确(不正确)的数据集
这是我的问题描述:
“根据家庭收入和财富调查,我们需要找出收入和支出最多的前 10% 的家庭。但是,我们知道这些收集到的数据不可靠,因为存在许多错误陈述。尽管存在这些错误陈述,但我们有数据集中的一些特征当然是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。
不可靠的数据意味着家庭对政府撒谎。这些家庭为了不公平地获得更多的政府服务而虚报他们的收入和财富。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。
现在,我有以下问题:
- 我们应该如何处理数据科学中的不可靠数据?
- 有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?- 我们如何评估我们在这项研究中的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督学习方法吗?
- 机器学习中是否有任何想法或应用试图提高收集数据的质量?
请向我介绍任何可以帮助我解决此问题的想法或参考资料。
提前致谢。
etl - 处理数据仓库中的重复项
我正在通过以下链接处理数据仓库中的数据质量问题。
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
" 响应质量事件我已经说过,每个质量屏幕都必须决定抛出错误时会发生什么。选择是:1) 停止进程,2) 将有问题的记录发送到暂挂文件以供以后处理, 和 3)仅标记数据并将其传递到管道中的下一步。第三种选择是迄今为止最好的选择。
在某些维度提要(如客户列表)中,有时我们会两次获得同一个客户(两条记录在某些属性上存在差异)。在这种情况下,最好的解决方案是什么?
我不想拒绝这两条记录(因为这意味着不完整的客户数据)。
源系统修复问题的速度非常慢,所以我们每天都会遇到同样的问题。这意味着手动修复问题也很困难,因为它必须每天完成(我们每天都会收到客户名单)。
选择单个记录是不可能的,因为我们不知道正确的值是什么。
在我们的仓库中拥有这两个记录意味着我们的连接被中断。由于同一 ID 的两行,事实表行加倍(在连接中)。
有什么想法吗?
machine-learning - 不建议使用神经网络的数据集
我的问题基本上是:在学习问题中,是否有不建议使用神经网络的数据集?此类数据集有哪些流行特征?
我问的原因是:在一些文章中证明神经网络可以学习任何功能。但是所有的数据集都代表一个函数吗?如果他们没有资格这样做;不合格数据集的属性是什么?
在我的研究中,我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到了以下模式
作为人类,我无法通过查看输入来预测目标,我希望神经网络也不会准确预测。因此,对于这种情况,可能建议采用其他方法。