问题标签 [data-profiling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 数据分析任务 - 自定义配置文件请求
是否有任何选项可以为 SSIS 数据分析任务创建自定义配置文件请求?
目前,SSIS 数据分析任务下有 5 个标准配置文件请求:
- 列空比率配置文件请求
- 列统计配置文件请求
- 列长度分布配置文件请求
- 列值分布配置文件请求
- 候选密钥配置文件请求
我需要添加另一个(自定义)以获取所有数值的摘要。
提前感谢您的帮助。
sql-server - 查找多列主键
我有大约 30 个来自旧 ERP 的表,它们具有多列主键。不幸的是,我不知道这些键是什么。我已经使用 SSIS 分析任务来确定最多 5 列的主键候选者,但它运行速度太慢以至于不切实际。有什么工具可以更快地做到这一点吗?我的替代方案是使用 Excel 进行大约 2 周的调查和大量选择不同的查询。
sql-server - 在 SSIS 数据分析中分析空字符串
我刚刚开始使用 SSIS 中的数据分析任务来分析我们数据库中的一些数据。我找到了分析列空比率的选项(“Column Null Ratio Profiles”),但我有兴趣分析空字符串(“”)以及空值。
我试过谷歌搜索,但没有任何运气。有谁知道这是否可能?
azure - 使用 Azure SQL Server 数据运行数据分析任务时出错
在 SSIS 中使用来自 Azure SQL Server 的数据运行数据分析任务时,我收到以下错误消息:
System.Data.SqlClient.SqlException (0x80131904):不支持USE语句在数据库之间切换。使用新连接连接到不同的数据库。
我不确定如何处理此消息,因为我不在数据库之间切换。数据分析任务的目标是一个 .txt 文件。
我错过了什么?
(希望)有用的说明:
当我尝试将数据从同一个 Azure SQL Server 数据库复制到桌面上的 .txt 文件时(使用数据流任务),一切正常。此外,在 Data Profiling Task 中选择相同的连接管理器时,会列出我的数据库的正确表和视图。所以我确定这不是连接问题,它可能是数据分析任务特定的错误。
我使用 Visual Studio 2017 社区版本 15.9.28307.280。
sql-server - 如何遍历每个表中的所有表和字段以获取缺失值的百分比
我正在尝试使用 SSIS 获取一个表,以获取 SQL Server 数据库的每个表中每个字段的缺失值百分比。
理想情况下,我想在另一个数据库中创建一个包含 4 个字段的新表
表/字段/类型/PctMissingValues
表格的每个字段都有一行。类型将是字段类型
我的想法是使用 foreach 循环容器循环遍历表和字段,在容器内部有一个数据流任务,包括 OLE DB Source > Aggregate > OLE DB Destination 但我不知道如何做到这一点,我是新手一般的 SSIS 和 ETL
db2 - DB2:需要获取给定 db2 表的列列表和不同值计数
出于数据分析的目的,我只需要了解给定表中的列是否填充了值。为此,我需要获取给定 db2 表的列列表和不同值计数。
python - 如何在不使用 python 循环的情况下检测和转换列值的单位?
据我所知,Python 循环很慢,因此最好使用 pandas 内置函数。
在我的问题中,一列将有不同的货币,我需要将它们转换为美元。如何使用 pandas 内置函数检测并将它们转换为美元?
我的专栏如下:
注意:金额和货币名称在同一列。
注:换算汇率wrt美元{欧元:1.2,英镑:1.3,卢比:0.05}
注意:货币枚举为 ['Euro', 'Dollar', 'Pounds', 'Rupee']
python-3.x - 为什么在尝试获取数据分析报告时会出现 IndexError?
我最近开始使用python。而且,我正在尝试使用 pandas_profiling 获取报告,但遇到了 IndexError。有人可以解释我如何调试这个吗?
数据有 30 个变量和大约 800,000 行。
到目前为止,我正在尝试将 csv 文件读入数据框并使用 pandas 分析对其进行分析。没有编写自定义代码[部分来自使用标准库和包。
提前致谢
Error below
html - 熊猫分析“重复行”部分未显示在 HTML 报告中
我正在使用 pandas-profiling=2.8.0 并且我生成了一个 HTML 报告,其中概述部分显示了 2 个重复项,如下所示
但是我的 HTML 报告标题中缺少“重复行”选项/部分。
但在文档页面上的共享示例中:https ://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/examples.html
您可以在官方示例报告中看到“重复行”。
示例(人口普查收入报告):https ://pandas-profiling.github.io/pandas-profiling/examples/master/census/census_report.html
谁能告诉我的代码中缺少什么,因为我在 HMTL 报告标题中没有得到“重复的行”?