问题标签 [data-quality]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2019 浏览

informatica - 如何解决此错误:阅读:数据溢出/转换错误

如何解决此错误:阅读:[某些字段] 的数据溢出/转换错误。在 informatica 数据质量 9.1.0 中运行映射后,我收到此错误

0 投票
1 回答
273 浏览

informatica - 在 PowerCenter Designer 中排列对象

我有两个问题

1) 我正在尝试将 Source Analyzer 视图中的对象排列成某种有组织的显示格式,以便我可以对其进行排序。但是,当我转到布局控制面板时,“全部排列”的源分析器选项是“灰色”的。有没有办法安排或组织对象?

2)虽然我的源中的对象是由我导入的数据库组织的,但目标导航器中没有这样的组织视图。所有的目标都只是转储到导航器中!我有什么办法可以在导航器中组织目标文件夹中的表视图?

我无法在网上找到这些具体问题的答案,所以如果它们看起来很基础,我深表歉意。感谢各位开发者的帮助!

0 投票
1 回答
250 浏览

r - Datacheck:将字符串值(输入)与 R 中的现有语言(荷兰语词典)进行比较

我正在尝试使用 R 脚本过滤掉诸如“ffff”和“fdaljfdlksajf”之类的糟糕的开放答案(字符串变量)。我希望 R 中有某种可用的字典包,我可以用它来做到这一点,但我似乎找不到它。

另一种选择是上传荷兰语(这是我需要的字典)单词列表并将其与输入进行比较,但这并不容易找到。

你们中有人曾经尝试过这个并找到解决方案吗?

0 投票
0 回答
2591 浏览

hadoop - Hive - 针对大表检查一个分区上的重复项的最有效方法

我正在创建一个查询以在一个非常大的 Hive 表上运行(每天插入数百万行)。

我需要检查(在添加行之后,而不是之前)是否有重复项。我想知道下面是否是最有效的方法,或者我是否应该检查新插入的行是否与现有数据重复。例如,这可以通过 OVER 子句来完成吗?还是没有效率提升?

表在加载日期进行分区,我使用 tez。

0 投票
2 回答
572 浏览

sql-server-2008 - 如何处理 SQL 查询中的不良数据质量

下面的代码是来自我们的源系统的包含温度的分组数据示例(请记住,它是在医院中测量的人的温度)。

显然数据很糟糕,但想知道是否有可能以某种方式将这些数据转换为 INT,因为我们有一个 UOM(计量单位)字段,所以我们只需要数字。

数据问题:

88 度显然是华氏度而不是摄氏度 3635 是 36.35 .368 是 36.8 37.3。37.3 .37.7 37.7 377 37.7 .3.8 38

我认为任何其他变化都应该排除无效数据才能公平,因为不能准确地做出明智的假设。

0 投票
1 回答
347 浏览

informatica - Informatica 开发人员 (IDQ) 统计信息

我们如何将映射名称、源行、目标行、开始时间、结束时间等 informatica 开发人员 (IDQ) 工具中的映射统计信息捕获到表中

0 投票
1 回答
134 浏览

java - 从自由文本到价值列表

我正在实现一个带有订阅表单的 Web 应用程序(使用 Java 作为后端)。在此表单中,有一个带有与其关联的下拉列表的字段。用户可以(具有自动完成功能)从下拉列表中选择一个值或插入一个不同的值(自由文本)。如果用户输入了一个未包含在下拉列表中的值,我想验证用户输入的值是否与下拉列表之一“具有相同含义”以使其标准化。有没有我可以利用的方法或产品来执行这种“数据质量”活动?让我做下面的例子:

在下拉列表中,我有几个品牌,包括 LOUIS VITTON。用户不关心自动完成功能建议的值“DOLCE & GABBANA”并插入“dolce and gabbana”。

我想要一个方法/工具来理解“dolce and gabbana”与“DOLCE & GABBANA”具有相同的含义。

希望这很清楚。

谢谢

戴维德

0 投票
2 回答
188 浏览

r - R - 估计缺失值

假设我有一个这样的表:

这是表格中的数据的样子

表中的值是由我无法访问的 R 程序估计的(现在它是一个黑匣子)。由于我们的摄取/ETL 过程中的问题,现在有几天的 0 值趋于蔓延。我需要用 0 数据估计日期的值。

我们的方法是:

  • 从缺失数据之前的日期到缺失数据之后的日期画一条线
  • 从该行估计缺失日期的值

现在,如果在两个好日子之间只有一天缺少数据,那么直接的平均值就可以了。如果连续两天或更长时间缺少数据,则平均值将不起作用,因此我正在尝试制定一种方法来估计多个数据点的值。

绿线和红线的交点将给出所需的值

这种方法可以在 R 中使用吗?我在 R 的总人数是 n00b,所以我不确定这是否可行。

0 投票
1 回答
170 浏览

javascript - 需要验证流分析作业的输入(来自 eventthub)以确保数据质量

有没有办法从 Azure 流分析中的流输入 (eventhub) (JSON) 检测数据质量问题?

场景: 1) 错误消息:空白记录、键列中的 NULLS/空格 2) 超出预期范围的值、不正确的数据类型等 3) 非标准消息

已检查异常检测,但它不提供这些功能。

注意:我正在运行 =Data Quality 与数据处理并行的作业,以将具有数据质量问题的消息捕获到 BLOB 中以进行调查/重新处理。

避免处理管道中的性能问题。

有人在 Azure 中实现了数据质量框架吗?

谢谢,莫汉

0 投票
2 回答
373 浏览

sql - 如何在 SQL 中使用客户端名称和地址来识别重复记录,而它们都是自由文本

我有一个包含数百万客户联系人的数据库。但是,其中很多是重复的,我可以请这里的一些英雄建议如何使用 Oracle SQL、PL/SQL 或 Excel 识别这些重复。

下面是数据结构:

Client_Header

客户地址

我的挑战是除了Client_Date_Of_Birth那些关键领域,所有领域都只是自由文本。

例如,我们有一个像下面这样的客户

但是,由于这些字段是自由文本,我有很多数据问题,下面的链接(仅限 jpeg 文件)说明了其中一些问题

数据问题示例

笔记:

  1. 除了这些问题,有时我们也可能会错过客户的名字或姓氏(但不能同时错过两者)
  2. 有时可以在同一记录中找到多个问题。
  3. 有时,地址可能只是学校、购物中心等的名称。

  4. 系统不存储任何其他可以唯一标识客户端的 id。

我知道在客户地址是学校或购物中心的情况下收集所有重复记录几乎是不可能的。但是,对于其他情况,无论如何都可以识别大部分重复项。

谢谢您的帮助!