问题标签 [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1767 浏览

xml - 使用 R 将新数据附加到格式化的 xlsx 工作表

当新数据进入时,我正在尝试使用该xlsx包来帮助清理复杂的数据集。我的目标是一个如下所示的工作流:

  1. 将数据导入R,做一些编码数据清理。
  2. 将数据写入 xls 文件,将其保存到保管箱文件夹
  3. 非 R 识字的同事(和我自己)然后可以进行手动数据清理
  4. 随着更多数据的输入,我重复第 1 步,然后将其附加到现有的 XLS 文件中,保留突出显示、注释或粗体等格式。

最后,我很好奇我希望这是否适用于 LibreOffice(在我使用的 Linux 中)和 Excel(在同事使用的 Windows 中)。

目前,我很难找到一种将数据附加到现有电子表格而不完全重写它(从而丢失任何格式)的方法。

这是我希望能够使用预加载iris数据集的示例:

(见截图) 在此处输入图像描述 在此处输入图像描述

append=TRUE选项在这里没有太大帮助,因为它旨在简单地将工作表添加到工作簿。

或者,是否可以将电子表格的格式读入某种 R 对象,然后将其应用于重写的文件,执行如下操作?

有一些类似的命令允许我从 R 定义格式,但我没有找到可以读取然后重写格式的命令

0 投票
1 回答
383 浏览

python - Pandas:重新索引和插入非连续数据

我有一个按 24 小时周期排列的数据集,并且我正在尝试创建一个数据清理系统,该系统可以处理可能会跳过小时周期的情况(例如从凌晨 4 点到下午 3 点,例如,在这样的时间段之间没有丢失的行:)

我希望数据集插入并用 NaN 填充缺失的行到目前为止,在加载我的数据后,我已经尝试过

但这对我不起作用。我不确定我做错了什么。我试过查看 stackoverflow 上的其他答案,但没有找到答案。

在此先感谢您的帮助。

编辑:cleanframe 头看起来像这样

和 cleanframe 信息

0 投票
2 回答
124 浏览

r - 具有可变数量参数的简单 R 函数

我正在做一个项目,将一堆 stata 代码转换为 R 以执行数据清理,我想做的一件事是编写一个 R 函数来清理我之前编码的所有 Yes/No 变量作为(是 = 1,否 = 2)标准虚拟变量。

问题是需要被这个函数清理的变量的数量会不断变化。所以我的猜测是,该函数需要将(1)包含所有变量的数据集/数据框作为其参数,以及(2)需要清理的变量列表。

对此的任何帮助将不胜感激,因为我对 R 很陌生。

谢谢!

0 投票
1 回答
184 浏览

r - 在 R 中清理冗余的按时间顺序排列的团队数据

我有一个看起来像这样的数据集(“dat”):

dat 是按时间顺序排列的。从数据集的开头(即最早的时间点)开始,我想消除以下情况之一:a)完全相同的一组人在以后的时间点组建了一个团队和/或 b)一个子集一个以前组建的团队走到了一起。在这两种情况下,我都想保留较早的分组并消除较新的分组。

例如,在我的示例数据集中,团队 6595978 和 7545798 都应该被淘汰;团队 6595978 是团队 9595288(之前按时间顺序列出)的精确复制品,团队 7545798 是团队 9595288 的子集。但是,团队 2095820 不应被淘汰;虽然团队 2095820 包含之前列出的团队 1595882 的所有成员,但团队 2095820 应该保留,因为添加了一个新成员,人 37506459。

欢迎任何/所有建议。提前致谢!

真诚的,艾米

0 投票
2 回答
55 浏览

mysql - 通过文本文件将 DATA 加载到 mySQL

我在 mysql 中创建了一个名为 person 的表,并尝试使用文本文件将数据加载到其中。但是,我有一个限制,我必须在检查 SSN 是否应修剪为适当数量的字符时加载数据。如果该值为空,我还想将 SSN 设置为 NULL。但是,我使用的命令都没有工作。例如,我不知道为什么下面的行不起作用。

有谁知道我做错了什么?谢谢!!

请注意:我将 SSN 的数据类型设置为 Varchar(10)。请告诉我这是否不是该字段最合适的数据类型。

0 投票
3 回答
541 浏览

r - 在 R 中所谓的扁平数据框中查找拼写错误(按因素计算的行不同)

我有一个所谓的扁平数据框,有大约 40 列不同的数据类型。对于前 15 列左右,有一个变量充当唯一索引。因为它是一个扁平化的关系数据库,所以在这些列中,该索引变量中具有相同值的所有行应该是相同的。但他们不是。我想找出错别字在哪里。

我做了这个非常简化的例子:

它看起来像这样:

f 是唯一索引。在我的原始数据框中,这是一个已转换为因子的日期,但这无关紧要。如您所见,第 9 行和第 10 行是正确的,因为所有其他变量值都是相同的。第 1、2、5 和 6 行也是正确的,因为每个因子值只有一行。但是第 3-4 行和第 7-8 行是不正确的:它们有错别字,并且变量的值不相同。

我想要的结果是这样的:

如您所见,我也遇到了降价问题。

这个例子很简单,但是如果在多个列中存在不等式(错别字),则最终结果中的“列名”下应该有多个元素。另请注意,我的原始数据框很宽并且有很多列,对于给定的 f 值,只有其中一些列应该是相同的。

事后澄清:所选行始终是该组的第一个(请参阅我对以下评论的回复)。

我只设法得到了有错别字的行,但是以一种非常复杂的方式,我认为发布它没有用。

0 投票
1 回答
145 浏览

case - 用于分类的 SQL Server 2014 字符串搜索:多个搜索字符串的复杂 CASE WHEN(规则)

我正在使用不使用受控输入的旧数据输入系统。一切都存储在 varchar(max) 字段中,不幸的是,它包含许多关于事物表达方式的变体。

如果我想知道什么时候校准了,我不能只说“where t.col like '%cal%'

它适用于“CAL, CAL., Calib. Calibrate, calibrate, Calibration,calibration, Cal'd...”之类的情况,但不适用于拼写错误的变体。

此外,此人可能会说“NO cal reqd, didn't cal.,”

文本可以“推断”该动作发生。“校准”可以写成“调整到基线,按程序调整”。

正如您在一个案例中所看到的那样,实际上存在数千个潜在的“规则”。

我花了大约 2 周的时间来处理大约 30K 条记录,并将它们智能地解析为数据所属的大约 30 个(0,1 / true/false)类别。

我想知道是否有人可以指出我使用 T-SQL 来代替手动处理的有用查询构造。

0 投票
1 回答
14339 浏览

python - 为 col == None 过滤 pandas 数据框

我有一个data_df包含多列的数据框,其中一列c包含国家名称。如何过滤掉c == None.

我的第一次尝试是这样做:

但是,这产生了 0 行。然而,这奏效了:

有人可以解释为什么吗?从 Pandas 文档看来,第一个应该能够正确过滤。

一些示例行:

0 投票
0 回答
54 浏览

excel - 如何强制我的 excel 数据进入更少的列

我有一组 3500 行的公司数据。我正在尝试将这些数据转换为一种格式,以便我可以进行统计分析。我的问题是我想获取 C:D 列中的所有数据并转置它们。我知道如何转置数据,但现在我的数据是 3000 列宽。我怎样才能获取这些数据并使其转置后的数据将被限制为 5 列,并且每个附加列都将放在下一列之下。在下图中,绿色是我想要的格式,红色是所有被转置的信息。我希望这个红色信息进入绿色列。请参阅图像以获得更清晰的描述: 在此处输入图像描述

非常感谢任何帮助。

0 投票
1 回答
68 浏览

python - 在 Pandas 数据框中合并两个变量以形成一个新变量 - Python

我有一个数据框,我想根据两列的值创建一个新的数据框。这对值总是:'x' and 'x'or'x' and NaNNaN and 'x'or NaN and NaN。因此,对于前三个示例,新变量的值是 b 'x',对于最后一个示例,新变量的值是NaN。Nan是缺失值。

熊猫数据框是:

我尝试了以下代码,但它根本不起作用。

那么,如何正确创建新变量?