问题标签 [data-profiling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
323 浏览

null - Db2 表 - 查找包含 100 多列的表中的所有空白列

我有一个有 78 列和 100k 行的表。有没有办法找到表中的所有空白列而不查询每一列来查找它们的计数?

当表有 100 多行时,运行非空查询非常耗时,而且对于我想要做的任何事情都是不可行的!我确实对列运行了计数查询,结果没有。空白值 VS 列中其他值的数量,但在所有 78 列上运行这样的县查询不是一个可行的选择。

还有其他简单的方法可以做到这一点吗?

0 投票
1 回答
81 浏览

python-3.x - 当我执行 pandas-profiling 包时,它不会返回最小值、最大值和平均值

当我使用pandas-profiling==2.8.0分析以下数据时,它不会返回最小值、最大值和平均值。

CSV 数据

a,b,c
12,2.5,0
12,4.7,5
33,5,4
44,44.21,67

蟒蛇代码

在某些情况下,它可以正常工作并返回最小值、最大值和平均值。但是当我在 csv 数据上方执行时,它不会返回该值

0 投票
2 回答
118 浏览

sql - 列的验证工作非常缓慢(SQL Server)

我想对表的列执行数据分析。在这种特殊情况下 - 数据的百分比是日期/整数/数字/位。我正在使用的查询:

即使我只选择前 1 行,此查询的运行速度也很慢。实际上我无法得到任何结果,或者至少我不能等待这么长时间。如果这很重要,我正在检查的列是十进制类型。

在此处输入图像描述

表中的记录数为:37,431,866。这就是为什么我只选择前 1000 个,但仍然没有加载任何结果超过 40 分钟

0 投票
1 回答
144 浏览

sql - 大表列的数据分析(SQL Server)

我有超过 4000 万条记录的表。我需要进行数据分析,包括 Null 计数、不同值、零和空白、%Numeric、%Date、需要修剪等。

我能够找到的示例始终包括使用游标执行任务。对于大桌子,这样的解决方案是性能杀手。

如果我收到提供更好性能替代方案的建议和示例,我会很高兴。是否可以创建多个存储过程并将结果组合到一个表中?到目前为止我还没有使用过存储过程,所以我的问题只是基于我从文档中得到的理解。

0 投票
0 回答
26 浏览

ssis - SSIS 数据分析任务 - 未在数据配置文件输出中显示全部

在 SSDT 2017 中选择以下数据分析任务请求。但是,它仅在输出中显示 NullRationReq 而不是其他请求。我尝试了几次,当检查探查器输出 xml - 在 DataProfileOutput 节点中它只有 NullRatioReq1,试图查看为什么它没有显示探查器中其他请求的输出。

在此处输入图像描述

下面是分析器输出和 xml 片段

在此处输入图像描述

xml 片段

在此处输入图像描述

0 投票
0 回答
21 浏览

json - 用于 json 文档的简单数据 porfiler

我有几个 json 文档,需要对它们进行基本的数据质量分析。没什么特别的,只是像各种字段、重复值(如字典)、完整性和缺失字段等。是否有一个简单的工具可以将 json 文件作为输入并提供一种分析?

0 投票
0 回答
105 浏览

python - 如何在 PySpark 中进行数据分析?错误:DataFrame' 对象没有属性 'ix'

我正在尝试在 Python 中进行一些数据分析。但我不断收到错误:

0 投票
0 回答
50 浏览

pandas - 如何为目录中的多个 csv 文件创建多个 pandas 分析报告?报告名称应与文件名匹配

我试过这个,

0 投票
0 回答
16 浏览

pandas - 熊猫数据分析

我正在为包含 12 个变量的数据集使用数据分析报告。数据分析器将三个变量(采用固定值之一)分类为分类变量,但另外两个变量也将固定值之一作为数值变量。有什么方法可以找出数据分析器是如何对变量进行分类的?我可以在数据探查器中为特定变量设置类型吗?BR迪潘卡