问题标签 [data-quality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
informatica - IDQ输入参数文件错误
在 IDQ infacmd 中,我尝试使用源输入参数文件执行多个 wf,第一个 infacmd 成功但第二个 infacmd 映射失败,因为输入参数采用默认值而不是分配值。
batch-file - Windows中的IDQ输入参数文件错误
在 IDQ 过程中,我在服务器位置生成了一个工作流参数。
当我尝试使用批处理脚本调用具有不同源文件名的参数文件时,会遇到错误,显示找不到参数文件。
它无法选择具有多个输入参数的差异文件名。
etl - 如何在 informatica 开发人员中使用标签器转换?
我是这个 IDQ 工具的新手。谁能给我一个带有一些屏幕截图的分步说明,以了解如何使用参考表使用标签器转换。
任何与使用参考表的标签转换相关的视频链接也值得赞赏
提前致谢!!!
r - R:数据质量检查:与城市匹配的邮政编码
有人可以帮助我在 R 中实现一个想法吗?
我想要实现的是,当 R 获得一个包含公司列表及其地址的输入文件时,它将检查每个公司的邮政编码是否适合城市。我有来自某个国家/地区的所有城市和邮政编码的列表。如何将列表实现为 if 语句?
以前有人编程过类似的东西吗?
感谢您的帮助!桑德拉
informatica - 我想使用 informatica 在给定字符串中的任何位置检测带有变音符号的拉丁字符
我想使用 informatica 在给定字符串的任何位置检测带有变音符号的拉丁字符。要求是每当我在字符串中的任何位置发现至少一个带有变音符号的拉丁字符时,我都会将输出作为 Fail else pass 给出。
postgresql - 处理来自 postgreSQL 数据库的“大数据”(250+ GB)的一些最有效的工作流程是什么?
我正在构建一个脚本,它将处理来自单个 postgreSQL 表的超过 250+ GB 的数据。表格的形状约为 150 列 x 74M 行 (150x74M)。我的目标是以某种方式筛选所有数据,并确保每个单元格条目都符合我将负责定义的某些标准。处理完数据后,我想将其通过管道传输到 AWS 实例中。以下是我需要考虑的一些场景:
- 如何确保每个单元格条目满足其所在列的某些条件?例如,“日期”列中的所有条目都应采用“yyyy-mm-dd”等格式。
- 哪些工具/语言最适合处理如此大的数据?我经常使用 Python 和 Pandas 模块进行 DataFrame 操作,并且知道该
read_sql
功能,但我认为在 Python 中处理这么多数据将花费太长时间。
我知道如何在 Python 中逐块手动处理数据,但是我认为这可能效率太低,脚本可能需要 12 多个小时。
简单地说或 TLDR:我正在寻找一种简单、流线型的解决方案来操作和执行对 postgreSQL 数据的 QC 分析。
python - 如何使用熊猫查找特定列具有十进制数字的行?
我正在使用 pandas 编写数据质量脚本,该脚本将检查每列的某些条件
目前我需要找出特定列中没有小数或实际数字的行。如果它是一个整数,我可以找到这些数字,但是到目前为止我看到的方法 ie isdigit() , isnumeric(), isdecimal()
etc 无法正确识别数字何时是十进制数。例如:2.5、0.1245 等。
以下是一些示例代码和数据:
以下方法都无法识别十进制数
因此,当我尝试以下操作时,我只得到 1 行
注意:我正在使用dtype=str
pandas 来获取数据,而无需解释/更改 dtypes 的值。实际数据在 A 列中可能有空格,我将使用 replace() 将其删除,我在这里保持代码简单,以免混淆。
validation - 如何在 aweglue 中添加数据质量检查实用程序。?
如何在 aws 胶水中添加仅检查数据质量(如 null、正确的数据类型等)的作业
hiveql - 如何自动化数据质量规则的执行过程?
我们的一位客户需要使用 hiveQL 构建/开发数据质量规则。例如,替换 NULL 值、更改日期格式YYYY-MM-DD
、标准化美国和欧盟格式的金额列值等。
问题陈述:
我在一个配置单元表(dq_rules)中有一组数据质量规则,想要一个一个地执行每个规则并将错误(数据问题,如空列,不正确的日期格式列)存储在另一个配置单元表(dq_logging)中报告/记录目的。
请记住一件事给我建议解决方案,我想让这个解决方案通用且适用于任何配置单元表/列(这意味着它应该被参数化)。
限制:我不能使用现有的数据质量工具。我只需要使用蜂巢来完成它(限制由客户给出)。
表的架构:
- dq_rules => 验证规则 ID、规则类别、DQ 维度、规则描述添加日期、停用日期
- dq_logging => Error_ID,Source_Name,Erroneous_Source_Fields,Source_File_Record,验证规则 ID
如果有人有与编写 shell/python 脚本相关的解决方案,也适用于我。我只需要让它端到端的过程。
ssis - 如何检查 SSIS 中的数据质量?
在传输过程中转换数据时,我将所有被拒绝(即失败)的转换移动到拒绝表中。但是,我只得到第一个错误的条目:
示例源数据:
对于第 3 行,我只收到第 2 列错误的错误,第 3 列未列出,因此我的拒绝表只有 2 个条目。
有没有办法获取每个错误的列表?
目前我会简单地使用拒绝表并运行一个脚本来执行我想要的操作,从而获得一个“正确的”日志文件,尽管我更喜欢在 SSIS 中有一些东西。
最好的方法是什么?