“data-cleaning”的相关标签问题

0 投票

1 回答

1767 浏览

xml - 使用 R 将新数据附加到格式化的 xlsx 工作表

当新数据进入时，我正在尝试使用该xlsx包来帮助清理复杂的数据集。我的目标是一个如下所示的工作流：

将数据导入R，做一些编码数据清理。
将数据写入 xls 文件，将其保存到保管箱文件夹
非 R 识字的同事（和我自己）然后可以进行手动数据清理
随着更多数据的输入，我重复第 1 步，然后将其附加到现有的 XLS 文件中，保留突出显示、注释或粗体等格式。

最后，我很好奇我希望这是否适用于 LibreOffice（在我使用的 Linux 中）和 Excel（在同事使用的 Windows 中）。

目前，我很难找到一种将数据附加到现有电子表格而不完全重写它（从而丢失任何格式）的方法。

这是我希望能够使用预加载iris数据集的示例：

（见截图）在此处输入图像描述

该append=TRUE选项在这里没有太大帮助，因为它旨在简单地将工作表添加到工作簿。

或者，是否可以将电子表格的格式读入某种 R 对象，然后将其应用于重写的文件，执行如下操作？

有一些类似的命令允许我从 R 定义格式，但我没有找到可以读取然后重写格式的命令

2014-08-08T08:14:17.003

0 投票

1 回答

383 浏览

python - Pandas：重新索引和插入非连续数据

我有一个按 24 小时周期排列的数据集，并且我正在尝试创建一个数据清理系统，该系统可以处理可能会跳过小时周期的情况（例如从凌晨 4 点到下午 3 点，例如，在这样的时间段之间没有丢失的行：）

我希望数据集插入并用 NaN 填充缺失的行到目前为止，在加载我的数据后，我已经尝试过

但这对我不起作用。我不确定我做错了什么。我试过查看 stackoverflow 上的其他答案，但没有找到答案。

在此先感谢您的帮助。

编辑：cleanframe 头看起来像这样

和 cleanframe 信息

python pandas data-cleaning

2014-09-15T10:39:22.097

0 投票

2 回答

124 浏览

r - 具有可变数量参数的简单 R 函数

我正在做一个项目，将一堆 stata 代码转换为 R 以执行数据清理，我想做的一件事是编写一个 R 函数来清理我之前编码的所有 Yes/No 变量作为（是 = 1，否 = 2）标准虚拟变量。

问题是需要被这个函数清理的变量的数量会不断变化。所以我的猜测是，该函数需要将（1）包含所有变量的数据集/数据框作为其参数，以及（2）需要清理的变量列表。

对此的任何帮助将不胜感激，因为我对 R 很陌生。

谢谢！

r data-cleaning

2014-09-18T17:57:59.563

0 投票

1 回答

184 浏览

r - 在 R 中清理冗余的按时间顺序排列的团队数据

我有一个看起来像这样的数据集（“dat”）：

dat 是按时间顺序排列的。从数据集的开头（即最早的时间点）开始，我想消除以下情况之一：a）完全相同的一组人在以后的时间点组建了一个团队和/或 b）一个子集一个以前组建的团队走到了一起。在这两种情况下，我都想保留较早的分组并消除较新的分组。

例如，在我的示例数据集中，团队 6595978 和 7545798 都应该被淘汰；团队 6595978 是团队 9595288（之前按时间顺序列出）的精确复制品，团队 7545798 是团队 9595288 的子集。但是，团队 2095820 不应被淘汰；虽然团队 2095820 包含之前列出的团队 1595882 的所有成员，但团队 2095820 应该保留，因为添加了一个新成员，人 37506459。

欢迎任何/所有建议。提前致谢！

真诚的，艾米

r data-cleaning

2014-09-22T22:56:10.397

0 投票

2 回答

55 浏览

mysql - 通过文本文件将 DATA 加载到 mySQL

我在 mysql 中创建了一个名为 person 的表，并尝试使用文本文件将数据加载到其中。但是，我有一个限制，我必须在检查 SSN 是否应修剪为适当数量的字符时加载数据。如果该值为空，我还想将 SSN 设置为 NULL。但是，我使用的命令都没有工作。例如，我不知道为什么下面的行不起作用。

有谁知道我做错了什么？谢谢！！

请注意：我将 SSN 的数据类型设置为 Varchar(10)。请告诉我这是否不是该字段最合适的数据类型。

mysql sql database dml data-cleaning

2014-09-28T19:43:16.137

0 投票

3 回答

541 浏览

r - 在 R 中所谓的扁平数据框中查找拼写错误（按因素计算的行不同）

我有一个所谓的扁平数据框，有大约 40 列不同的数据类型。对于前 15 列左右，有一个变量充当唯一索引。因为它是一个扁平化的关系数据库，所以在这些列中，该索引变量中具有相同值的所有行应该是相同的。但他们不是。我想找出错别字在哪里。

我做了这个非常简化的例子：

它看起来像这样：

f 是唯一索引。在我的原始数据框中，这是一个已转换为因子的日期，但这无关紧要。如您所见，第 9 行和第 10 行是正确的，因为所有其他变量值都是相同的。第 1、2、5 和 6 行也是正确的，因为每个因子值只有一行。但是第 3-4 行和第 7-8 行是不正确的：它们有错别字，并且变量的值不相同。

我想要的结果是这样的：

如您所见，我也遇到了降价问题。

这个例子很简单，但是如果在多个列中存在不等式（错别字），则最终结果中的“列名”下应该有多个元素。另请注意，我的原始数据框很宽并且有很多列，对于给定的 f 值，只有其中一些列应该是相同的。

事后澄清：所选行始终是该组的第一个（请参阅我对以下评论的回复）。

我只设法得到了有错别字的行，但是以一种非常复杂的方式，我认为发布它没有用。

r dataframe data-cleaning

2014-09-30T11:29:06.040

0 投票

1 回答

145 浏览

case - 用于分类的 SQL Server 2014 字符串搜索：多个搜索字符串的复杂 CASE WHEN（规则）

我正在使用不使用受控输入的旧数据输入系统。一切都存储在 varchar(max) 字段中，不幸的是，它包含许多关于事物表达方式的变体。

如果我想知道什么时候校准了，我不能只说“where t.col like '%cal%'

它适用于“CAL, CAL., Calib. Calibrate, calibrate, Calibration,calibration, Cal'd...”之类的情况，但不适用于拼写错误的变体。

此外，此人可能会说“NO cal reqd, didn't cal.,”

文本可以“推断”该动作发生。“校准”可以写成“调整到基线，按程序调整”。

正如您在一个案例中所看到的那样，实际上存在数千个潜在的“规则”。

我花了大约 2 周的时间来处理大约 30K 条记录，并将它们智能地解析为数据所属的大约 30 个（0,1 / true/false）类别。

我想知道是否有人可以指出我使用 T-SQL 来代替手动处理的有用查询构造。

case sql-server-2014 data-cleaning substring

2014-09-30T20:03:48.613

0 投票

1 回答

14339 浏览

python - 为 col == None 过滤 pandas 数据框

我有一个data_df包含多列的数据框，其中一列c包含国家名称。如何过滤掉c == None.

我的第一次尝试是这样做：

但是，这产生了 0 行。然而，这奏效了：

有人可以解释为什么吗？从 Pandas 文档看来，第一个应该能够正确过滤。

一些示例行：

python pandas subset data-cleaning

2014-10-08T05:08:38.737

0 投票

0 回答

54 浏览

excel - 如何强制我的 excel 数据进入更少的列

我有一组 3500 行的公司数据。我正在尝试将这些数据转换为一种格式，以便我可以进行统计分析。我的问题是我想获取 C:D 列中的所有数据并转置它们。我知道如何转置数据，但现在我的数据是 3000 列宽。我怎样才能获取这些数据并使其转置后的数据将被限制为 5 列，并且每个附加列都将放在下一列之下。在下图中，绿色是我想要的格式，红色是所有被转置的信息。我希望这个红色信息进入绿色列。请参阅图像以获得更清晰的描述：在此处输入图像描述

非常感谢任何帮助。

excel data-cleaning

2014-10-10T19:41:34.463

0 投票

1 回答

68 浏览

python - 在 Pandas 数据框中合并两个变量以形成一个新变量 - Python

我有一个数据框，我想根据两列的值创建一个新的数据框。这对值总是：'x' and 'x'or'x' and NaN或NaN and 'x'or NaN and NaN。因此，对于前三个示例，新变量的值是 b 'x'，对于最后一个示例，新变量的值是NaN。Nan是缺失值。

熊猫数据框是：

我尝试了以下代码，但它根本不起作用。

那么，如何正确创建新变量？

python pandas data-cleaning

2014-10-12T21:46:52.220

问题标签 [data-cleaning]

Reference