问题标签 [data-profiling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

29 问题

0 投票

2 回答

901 浏览

sql-server - 数据分析任务 - 自定义配置文件请求

是否有任何选项可以为 SSIS 数据分析任务创建自定义配置文件请求？

目前，SSIS 数据分析任务下有 5 个标准配置文件请求：

列空比率配置文件请求
列统计配置文件请求
列长度分布配置文件请求
列值分布配置文件请求
候选密钥配置文件请求

我需要添加另一个（自定义）以获取所有数值的摘要。

提前感谢您的帮助。

2018-08-03T05:27:47.693

0 投票

2 回答

153 浏览

sql-server - 查找多列主键

我有大约 30 个来自旧 ERP 的表，它们具有多列主键。不幸的是，我不知道这些键是什么。我已经使用 SSIS 分析任务来确定最多 5 列的主键候选者，但它运行速度太慢以至于不切实际。有什么工具可以更快地做到这一点吗？我的替代方案是使用 Excel 进行大约 2 周的调查和大量选择不同的查询。

sql-server ssis data-profiling

2018-11-21T15:58:45.333

0 投票

1 回答

109 浏览

sql-server - 在 SSIS 数据分析中分析空字符串

我刚刚开始使用 SSIS 中的数据分析任务来分析我们数据库中的一些数据。我找到了分析列空比率的选项（“Column Null Ratio Profiles”），但我有兴趣分析空字符串（“”）以及空值。

我试过谷歌搜索，但没有任何运气。有谁知道这是否可能？

sql-server ssis data-profiling

2018-11-29T11:22:14.477

0 投票

0 回答

200 浏览

azure - 使用 Azure SQL Server 数据运行数据分析任务时出错

在 SSIS 中使用来自 Azure SQL Server 的数据运行数据分析任务时，我收到以下错误消息：

System.Data.SqlClient.SqlException (0x80131904)：不支持USE语句在数据库之间切换。使用新连接连接到不同的数据库。

我不确定如何处理此消息，因为我不在数据库之间切换。数据分析任务的目标是一个 .txt 文件。

我错过了什么？

（希望）有用的说明：

当我尝试将数据从同一个 Azure SQL Server 数据库复制到桌面上的 .txt 文件时（使用数据流任务），一切正常。此外，在 Data Profiling Task 中选择相同的连接管理器时，会列出我的数据库的正确表和视图。所以我确定这不是连接问题，它可能是数据分析任务特定的错误。

我使用 Visual Studio 2017 社区版本 15.9.28307.280。

azure ssis azure-sql-database azure-sql-server data-profiling

2019-01-11T11:26:52.697

0 投票

2 回答

344 浏览

sql-server - 如何遍历每个表中的所有表和字段以获取缺失值的百分比

我正在尝试使用 SSIS 获取一个表，以获取 SQL Server 数据库的每个表中每个字段的缺失值百分比。

理想情况下，我想在另一个数据库中创建一个包含 4 个字段的新表

表/字段/类型/PctMissingValues

表格的每个字段都有一行。类型将是字段类型

我的想法是使用 foreach 循环容器循环遍历表和字段，在容器内部有一个数据流任务，包括 OLE DB Source > Aggregate > OLE DB Destination 但我不知道如何做到这一点，我是新手一般的 SSIS 和 ETL

sql-server ssis etl data-profiling

2019-10-24T00:38:44.427

0 投票

1 回答

48 浏览

db2 - DB2：需要获取给定 db2 表的列列表和不同值计数

出于数据分析的目的，我只需要了解给定表中的列是否填充了值。为此，我需要获取给定 db2 表的列列表和不同值计数。

db2 data-profiling

2019-12-17T18:06:17.830

0 投票

2 回答

535 浏览

python - 如何在不使用 python 循环的情况下检测和转换列值的单位？

据我所知，Python 循环很慢，因此最好使用 pandas 内置函数。

在我的问题中，一列将有不同的货币，我需要将它们转换为美元。如何使用 pandas 内置函数检测并将它们转换为美元？

我的专栏如下：

注意：金额和货币名称在同一列。

注：换算汇率wrt美元{欧元：1.2，英镑：1.3，卢比：0.05}

注意：货币枚举为 ['Euro', 'Dollar', 'Pounds', 'Rupee']

python pandas data-science data-cleaning data-profiling

2019-12-21T16:02:59.680

0 投票

1 回答

430 浏览

python-3.x - 为什么在尝试获取数据分析报告时会出现 IndexError？

我最近开始使用python。而且，我正在尝试使用 pandas_profiling 获取报告，但遇到了 IndexError。有人可以解释我如何调试这个吗？

数据有 30 个变量和大约 800,000 行。

到目前为止，我正在尝试将 csv 文件读入数据框并使用 pandas 分析对其进行分析。没有编写自定义代码[部分来自使用标准库和包。

提前致谢

Error below

python-3.x pandas index-error data-profiling

2020-02-14T06:11:33.160

0 投票

2 回答

860 浏览

google-bigquery - bigquery 表上的数据分析，包括最小、最大、唯一、空计数统计信息

我正在寻找解决方案来对 bigquery 表执行数据分析，涵盖表中每一列的统计信息。一些列是 ARRAY 和 STRUCT，如下所示。

我尝试了多种方法来生成动态查询以涵盖以下场景，但没有运气。我将非常感谢您的帮助/输入。

我想计算这个解决方案的一部分的指标是：

最小值
最大值
最小场地长度
最大场地长度
每个领域的唯一记录数
字段中的空值数
字段中的非空值数量。
日期或日期时间字段中的最小日期
日期或日期时间字段中的最大日期

样本表数据：

期望的输出

google-bigquery data-profiling

2020-06-07T09:07:00.223

0 投票

0 回答

162 浏览

html - 熊猫分析“重复行”部分未显示在 HTML 报告中

我正在使用 pandas-profiling=2.8.0 并且我生成了一个 HTML 报告，其中概述部分显示了 2 个重复项，如下所示

但是我的 HTML 报告标题中缺少“重复行”选项/部分。

但在文档页面上的共享示例中：https ://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/examples.html

您可以在官方示例报告中看到“重复行”。

示例（人口普查收入报告）：https ://pandas-profiling.github.io/pandas-profiling/examples/master/census/census_report.html

谁能告诉我的代码中缺少什么，因为我在 HMTL 报告标题中没有得到“重复的行”？

html pandas pandas-profiling data-profiling

2020-07-26T11:00:46.857

1 2 3 4 5 6 7 8 9 10

问题标签 [data-profiling]

（希望）有用的说明：

Reference