问题标签 [data-profiling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
901 浏览

sql-server - 数据分析任务 - 自定义配置文件请求

是否有任何选项可以为 SSIS 数据分析任务创建自定义配置文件请求?

目前,SSIS 数据分析任务下有 5 个标准配置文件请求:

  1. 列空比率配置文件请求
  2. 列统计配置文件请求
  3. 列长度​​分布配置文件请求
  4. 列值分布配置文件请求
  5. 候选密钥配置文件请求

我需要添加另一个(自定义)以获取所有数值的摘要。

提前感谢您的帮助。

0 投票
2 回答
153 浏览

sql-server - 查找多列主键

我有大约 30 个来自旧 ERP 的表,它们具有多列主键。不幸的是,我不知道这些键是什么。我已经使用 SSIS 分析任务来确定最多 5 列的主键候选者,但它运行速度太慢以至于不切实际。有什么工具可以更快地做到这一点吗?我的替代方案是使用 Excel 进行大约 2 周的调查和大量选择不同的查询。

0 投票
1 回答
109 浏览

sql-server - 在 SSIS 数据分析中分析空字符串

我刚刚开始使用 SSIS 中的数据分析任务来分析我们数据库中的一些数据。我找到了分析列空比率的选项(“Column Null Ratio Profiles”),但我有兴趣分析空字符串(“”)以及空值。

我试过谷歌搜索,但没有任何运气。有谁知道这是否可能?

0 投票
0 回答
200 浏览

azure - 使用 Azure SQL Server 数据运行数据分析任务时出错

在 SSIS 中使用来自 Azure SQL Server 的数据运行数据分析任务时,我收到以下错误消息:

System.Data.SqlClient.SqlException (0x80131904):不支持USE语句在数据库之间切换。使用新连接连接到不同的数据库。

我不确定如何处理此消息,因为我不在数据库之间切换。数据分析任务的目标是一个 .txt 文件。

我错过了什么?

(希望)有用的说明:

当我尝试将数据从同一个 Azure SQL Server 数据库复制到桌面上的 .txt 文件时(使用数据流任务),一切正常。此外,在 Data Profiling Task 中选择相同的连接管理器时,会列出我的数据库的正确表和视图。所以我确定这不是连接问题,它可能是数据分析任务特定的错误。

我使用 Visual Studio 2017 社区版本 15.9.28307.280。

0 投票
2 回答
344 浏览

sql-server - 如何遍历每个表中的所有表和字段以获取缺失值的百分比

我正在尝试使用 SSIS 获取一个表,以获取 SQL Server 数据库的每个表中每个字段的缺失值百分比。

理想情况下,我想在另一个数据库中创建一个包含 4 个字段的新表

表/字段/类型/PctMissingValues

表格的每个字段都有一行。类型将是字段类型

我的想法是使用 foreach 循环容器循环遍历表和字段,在容器内部有一个数据流任务,包括 OLE DB Source > Aggregate > OLE DB Destination 但我不知道如何做到这一点,我是新手一般的 SSIS 和 ETL

0 投票
1 回答
48 浏览

db2 - DB2:需要获取给定 db2 表的列列表和不同值计数

出于数据分析的目的,我只需要了解给定表中的列是否填充了值。为此,我需要获取给定 db2 表的列列表和不同值计数

0 投票
2 回答
535 浏览

python - 如何在不使用 python 循环的情况下检测和转换列值的单位?

据我所知,Python 循环很慢,因此最好使用 pandas 内置函数。

在我的问题中,一列将有不同的货币,我需要将它们转换为美元。如何使用 pandas 内置函数检测并将它们转换为美元?

我的专栏如下:

注意:金额和货币名称在同一列。

注:换算汇率wrt美元{欧元:1.2,英镑:1.3,卢比:0.05}

注意:货币枚举为 ['Euro', 'Dollar', 'Pounds', 'Rupee']

0 投票
1 回答
430 浏览

python-3.x - 为什么在尝试获取数据分析报告时会出现 IndexError?

我最近开始使用python。而且,我正在尝试使用 pandas_profiling 获取报告,但遇到了 IndexError。有人可以解释我如何调试这个吗?

数据有 30 个变量和大约 800,000 行。

到目前为止,我正在尝试将 csv 文件读入数据框并使用 pandas 分析对其进行分析。没有编写自定义代码[部分来自使用标准库和包。

提前致谢

Error below

0 投票
2 回答
860 浏览

google-bigquery - bigquery 表上的数据分析,包括最小、最大、唯一、空计数统计信息

我正在寻找解决方案来对 bigquery 表执行数据分析,涵盖表中每一列的统计信息。一些列是 ARRAY 和 STRUCT,如下所示。

我尝试了多种方法来生成动态查询以涵盖以下场景,但没有运气。我将非常感谢您的帮助/输入。

我想计算这个解决方案的一部分的指标是:

  • 最小值
  • 最大值
  • 最小场地长度
  • 最大场地长度
  • 每个领域的唯一记录数
  • 字段中的空值数
  • 字段中的非空值数量。
  • 日期或日期时间字段中的最小日期
  • 日期或日期时间字段中的最大日期

样本表数据:

块引用

期望的输出 在此处输入图像描述

0 投票
0 回答
162 浏览

html - 熊猫分析“重复行”部分未显示在 HTML 报告中

我正在使用 pandas-profiling=2.8.0 并且我生成了一个 HTML 报告,其中概述部分显示了 2 个重复项,如下所示 在此处输入图像描述

但是我的 HTML 报告标题中缺少“重复行”选项/部分。

但在文档页面上的共享示例中:https ://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/examples.html

您可以在官方示例报告中看到“重复行”。

示例(人口普查收入报告):https ://pandas-profiling.github.io/pandas-profiling/examples/master/census/census_report.html

在此处输入图像描述

谁能告诉我的代码中缺少什么,因为我在 HMTL 报告标题中没有得到“重复的行”?