问题标签 [data-quality-services]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
806 浏览

sql-server - DQS 如何清除主表中的重复项并更正所有引用表中的 ID

我们在主表中有很多重复项。请参见下面的示例,客户 ABC Corp 在主表中存在 3 次,并且在 Orders 表中引用了所有 3 个 CustID。

如何使用数据质量服务从客户表中删除重复的客户,以及如何更新订单表以反映更改。

即 CustID 1003 和 1004 合并到 Orders 表中的 1001 和 1003 和 1004 也需要更新为 1001。

到目前为止我所做的。使用 CustName 的同义词为客户创建知识库并定义领先值。然后在 DQS 中创建数据清理项目并分析数据,然后对主数据进行更正,并将这些更正的值导入客户知识库。我知道 SSIS 中的 DQS 清理转换通过连接到源表和 DQS KB 并提供匹配和不匹配的行来自动执行此操作,但我仍然不明白从这里做什么。客户表中的数据如何更正,订单表如何相应更新。请建议。到目前为止我看到的例子都是使用非常基本的东西,只有一个表格和一个简单的 Excel 表。

0 投票
1 回答
350 浏览

ssis - 在环境之间移动 SSIS DQS 任务

我正在使用 SQL Server 2012,我们创建了一个使用数据质量服务 (DQS) 清理转换的 SSIS 包。一切都很好,除非我们尝试将 SSIS 包从 DEV 环境移动到 QA 或 PROD。

SSIS DQS 转换在 XML 中硬编码知识库的 ID,而不是 KB 的名称。问题在于,当您安装/导入 DQS KB 时,它会为 KB 创建不同的 ID。因此,一个环境中的 KB 的 ID 将不同于另一个环境中的相同 KB 的 ID,例如,在 DEV 环境中,ID 是 100005,而在 PROD 环境中,相同 KB 的 ID 是 100007。

因此,当在 PROD 环境中执行转换时,任务会引发错误,因为转换正在查找 ID 为 100005 的 KB,而在 PROD 中,ID 为 100007(引发的错误是:知识库不存在) .

微软建议的唯一解决方法是只有一个 KB 并让所有环境都指向它(网络团队不允许这样做),或者不使用目录/部署工具并将 SSIS 项目移动到另一个环境然后打开包在 SSIS 中并在 SSIS DQS 转换中重新选择 KB,但这不是可接受的解决方法,因为开发团队无权访问 PROD 中的服务器。

有没有人想出一个不同的解决方法?顺便说一句,这就是微软所说的:https: //support.microsoft.com/en-us/kb/2882914(基本上是我上面写的)。我还尝试更改 XML 中的硬编码 ID,但由于某种原因不起作用。

如果没有解决方法,那么这个任务就没有用,这是不幸的,因为它运行良好。

0 投票
0 回答
343 浏览

sql-server - Azure DW + DQS + MDS 架构

如果我想在我的 Azure 环境中使用 MDS 和 DQS,典型的体系结构是什么。我一直在尝试搜索一些参考资料,但找不到明确的解决方案。

目前,如果我想为我的 Azure DW 使用 DQS 和 MDS,我只知道我必须获得一个具有 MDS 的 VM。那么这是否意味着当我加载数据时,它必须在加载到 Azure DW 之前通过 VM 中的 DQS/MDS DB?

如果我的问题有点令人困惑,如果有人能够解释并道歉,我将不胜感激。

0 投票
2 回答
109 浏览

sql - 重复数据删除和合并客户数据

我正在尝试组合基于 ClusterID 的记录,以获得丰富的客户记录数据。

如何使用 MS SQL 对以下内容进行分组?Coalesce 无法工作,因为记录需要在同一行才能使其工作,如果每个集群有超过 2 个匹配项,这将是一个乏味的处理。在所有列中按 ClusterId 使用 max 是我正在做的一种解决方法,但我希望有一种更有效的方法来做到这一点。

有:

**这是 SSIS DQS 匹配节点 ( https://ssisdqsmatching.codeplex.com/ ) 的结果。它可以进行比赛,但无法处理幸存部分获得金唱片。

想:

任何想法将不胜感激。谢谢!

0 投票
1 回答
202 浏览

azure - 在 Azure 上实现 MasterData 重复数据删除

我正在考虑根据 AzureDB 中的匹配百分比实现主数据重复数据删除...正在查看与 SQL Server2012 中的主数据服务/DQS(数据质量服务)等效的东西

https://channel9.msdn.com/posts/SQL11UPD05-REC-06

广泛寻找对匹配规则(精确匹配、紧密匹配等)的控制,处理依赖关系和审计跟踪(撤消能力等)

如果在 SQL Server 中可用,我认为它必须在 Azure 云中可用。你能指点我如何在 AzureDB 上完成这项工作吗

请注意 - 我不是在寻找 Azure 市场上列出的 MelissaDAta、D&B 等数据源

0 投票
0 回答
206 浏览

ssis - 我如何编写正则表达式来检查 DQS 域规则中的数字?

我是新手ssisdqs我想使用 dqs 来检查数据是否为数字,为此在 dqs 客户端中定义数字域并在域中使用此图像定义规则: 例如,我检查此数字:
在此处输入图像描述


那条规则返回给我的是数字!,但是achar 或sdchar 变成了那不是数字,会发生什么?我的表达是否不正确?我该如何解决这个问题?谢谢大家。

0 投票
0 回答
151 浏览

sql - 使用 dqs 检查空值

我是 SQL Server 的数据质量服务 ( DQS) 功能的新手。

我有一个很少有 INT 和字符串类型列的源表。

我需要在DQS使用知识库域来识别 INT/String 列中的 NULLS 并将其转换为零(0)/单个空格('')时实现数据质量规则。

0 投票
1 回答
226 浏览

sql - DQS 无法在包 SSIS 2012 中执行

我是使用 SSIS 的新手!我正在尝试使用包中的 DQS 将业务角色应用于源表中的特定列,即联系人标题。此列采用与销售人员相关的不同职位,将域上的值与现有数据相匹配。我制作了一个包来执行此操作,将来自源的数据插入到暂存中,但是每当我运行包时,DQS 部分都会传播一个错误。

[SSIS.Pipeline] 错误:通过插入进行的 DQS 清理验证失败并返回错误代码 0x80131516。

在此处输入图像描述

在此处输入图像描述

我希望有人可以帮助/指导我!

0 投票
1 回答
337 浏览

sql-server - Microsoft 数据质量服务刷新客户端视图表错误

我正在尝试在具有 32GB RAM、大量磁盘空间和最新更新(Microsoft SQL Server 2014 (SP2-CU2) (KB3188778) - 12.0.5522.0 (X64) Developer Edition)的 SQL Server 2014 上运行 SQL Server Data Quality Services (64 位)在 Windows NT 6.3(内部版本 9600:)(管理程序))数据驻留在同一台服务器上,单独的数据库中。知识库的创建和发布具有三个域,超过一百万条记录表。以及它停止工作的地方:在显示令人愉快的消息“数据源分析已成功完成”后创建数据质量项目失败 - 单击“下一步”按钮导致消息 #1,并且在重新启动应用程序(和服务器 - 只是以防万一),消息#2

  1. SQL Server 数据质量服务服务器已停止工作
  2. 刷新用户 [域\用户] 的客户端视图表失败。

这些是相当一致的。检查服务器和客户端日志什么都没有发现(除了错误的完整堆栈转储),微软论坛的唯一建议是“应用最新的服务包”;已应用最新的服务包,但仍然没有雪茄。

任何见解/建议将不胜感激!

谢谢你,-al

PS 客户端日志摘录:2/13/2017 9:19:26 AM|[]|1|ERROR|CLIENT|Microsoft.Ssdqs.Studio.ViewModels.Utilities.UIHelper|发生错误。Microsoft.Ssdqs.Infra.Exceptions.EntryPointException:刷新用户 [域\用户] 的客户端视图表失败。;在 Microsoft.Ssdqs.Proxy.Database.DBAccessClient.Exec();

0 投票
1 回答
308 浏览

sql-server - SSIS DQS清理任务随机卡住

我有许多软件包正在对我们的一些客户数据进行数据质量检查。有时,DQS 任务会随机卡在其中一个包中。没有模式如何卡住。有时重新启动 SQL Server 可以工作,有时不能。

当任务卡住时,Windows 任务管理器中的 CPU 使用率为 0%。

在此处输入图像描述

在上面,您可以看到一个任务被卡住了,但另一个没有。

最近,我意识到另一个有趣的行为。当一个任务被卡住时,另一个包被触发并发运行,被卡住的任务被解除。

这对我来说没有逻辑意义,所以我想知道是否有人以前在 SSIS 中遇到过随机挂起 DQS 清理任务的问题。

谢谢!