问题标签 [data-quality]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
54 浏览

r - 如何在 R 数据框中的 for 循环中填充函数?

我需要一些帮助来创建一个在函数内部生成的数据帧,该函数对 R 中给定数据帧的每一行使用 for 循环。

总之,我的角色旨在促进数据质量流程,这是我在未来预测定价模型培训中的第一步。从这个意义上说,我们的数据库中有一些重要的经济变量,它们的时间频率不小于月份(例如巴西的肉类生产)。此外,您可能会注意到,在某些情况下,对于某些变量,几个月的值往往会重复,这在另一种情况下需要对我们的算法和模型进行适当的处​​理,以便以更高的统计精度来理解。

由于我们的目标具有每日时间性(价格),我想创建一个函数(month_to_daily()称为值),rnorm函数假设标准偏差 = 1。(我也接受对此进行改进的建议)

在这个工作阶段我可以简单地“每月”我的数据集来捕获每个月的最后一个值来进行推理研究,以及特征选择和因果顺序,但我被迫选择了这条更困难的路径由于我们需要在每个新的一天进行价格预测,或者每个新价格都已在我们的数据管道中注册并被我们的模型快速消耗和重新估计,因此每月随机转换数据。

因此,在您使用我的函数month_to_daily(monthly_dataset$variable, monthly_dataset$timestamp)(时间序列的类型等等。正是在这个阶段,我很难做到这一点。

接下来,我将描述代码块,我将在这些代码块中逐步演示,等待您对如何生成或填充data.frame在我的函数内部使用 for 循环创建的函数提出建议。

最初我加载了我打算使用的 R 包:

然后我加载我的示例数据:

我们可以为我们的目的预览选定的时间序列:

然后通过创建将月度数据转换为具有可变性的每日数据的函数 ( month_to_daily),我有:

使用来自加载的示例数据集的数据的函数,我们有

br_meat_production_daily例如,我如何设置数据框对象,包括第一列作为日期(标记),第二个使用month_year模拟值,第三个使用模拟值?也许在我可以调用ggplot2通过使用变量名称(在此对象中)与新创建的轨迹的日/月/年来绘制新生成的时间序列图之后。

为了更好地解释,我想要的输出是这样的:

请注意,我称为desired_df 的内容包含由我之前为br_meat_production 创建的函数的输出生成的值。

上图是函数生成的每日数据,下图是原始月值。

所以,鉴于我已经在这里一步一步地解释了我的步骤,从这个函数生成这个所需的数据帧的最佳建议是什么?那个月的几天?

0 投票
1 回答
33 浏览

r - 用R计算我的df中每一列的重复值百分比的递归方法

我需要对我的真实 df 使用 lapply/sapply 或其他递归方法来计算每列/变量中有多少重复值。

这里我用一个小例子来重现我的案例:

r nrow(df)在我的数据集中,现在我需要获取每列的重复值的百分比。假设我的 realdf有很多列,我需要递归地做。我尝试使用lapply/sapply,但它没有工作...

如果我的数据框的列数增加到 700 左右,对每列使用一些递归函数并在数据框中从最大到最小有序地获取结果,如何以最佳方式执行此操作?(例如,对于达到 0% 的变量具有 100% 重复值的变量),例如:

0 投票
0 回答
24 浏览

data-quality - 数据质量功能什么时候发布到发布版本

dolphinscheduler 数据质量功能什么时候发布到发布版本?这个有时间计划吗。</p>

0 投票
0 回答
51 浏览

python - 使用 Bigquery 测试 yaml 的巨大期望

我在测试对 bigquery 寄予厚望的 yaml 时遇到了麻烦。我遵循了官方文档并得到了这段代码

该代码有效,但需要花费很多时间。我做了深度调试,发现问题是它想在 bigquery 中检索项目的所有数据集以及所有数据集中的所有表。我们有 200 多个数据集和数千个表。我还没有找到一种方法来过滤我需要的唯一数据集或更具体地说是表格。我认为 connection_string 应该这样做,但没有。

在我的深度调试中,得到了inferred_asset_sql_data_connector.py模块。我看到它应该过滤 schema_name 问题是它总是无。并且不知道如何将它作为我想要的数据集传递。

在此处输入图像描述

我也按照本指南进行了自省,但遇到了其他错误。 在此处输入图像描述

如果我将 SimpleSqlalchemyDatasource 作为 class_name 我会收到以下错误。而且我不知道如何在期望很高的情况下为 sqlalchemy 中的 bq 初始化引擎。

在此处输入图像描述

0 投票
0 回答
22 浏览

sql-server - 处理来自两个未链接服务器的数据

目前,我有两个 Microsoft SQL Server ,分别带有schema_1schema_2。以前,这两个方案在一台服务器上,我编写了可以同时访问这两个方案的查询。现在,由于某种原因,这两个方案已被转移到不同的服务器上,并且无法创建链接服务器(以及模式的复制)。我有一个问题,如何从两个未连接的服务器中获取数据以编写查询。

我假设我可以使用 Python 从一台服务器读取表,然后从另一台服务器读取表,但问题出现了,如何在曾经在 SQL 中的查询中实现复杂逻辑,现在将被重写python,这种方法可能无效。

我的查询更侧重于具有复杂逻辑的质量检查,您能否建议一个可以实现此功能的工具(PowerBI 除外)或数据论坛,我可以在其中提出这个问题。

0 投票
1 回答
26 浏览

python - 使用 Python Dask 进行数据质量检查

目前正在尝试编写代码来检查 7 GB 数据文件的数据质量。我试过谷歌搜索,但无济于事。最初,代码的目的是检查有多少是空值/NaN,然后​​将其与另一个数据文件连接并比较每个数据文件的质量。我们期望第二个更可靠,但我想稍后将整个过程自动化。我想知道这里是否有人愿意使用 Dask 分享他们的数据质量 python 代码。谢谢

0 投票
0 回答
20 浏览

python - PYTHON:如何检查列中的缺失值并在下一个空列中写入“缺失值”?

这是我想要的结果数据框:

我尝试了这段代码,但没有奏效: