问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 使用 R 将新数据附加到格式化的 xlsx 工作表
当新数据进入时,我正在尝试使用该xlsx
包来帮助清理复杂的数据集。我的目标是一个如下所示的工作流:
- 将数据导入R,做一些编码数据清理。
- 将数据写入 xls 文件,将其保存到保管箱文件夹
- 非 R 识字的同事(和我自己)然后可以进行手动数据清理
- 随着更多数据的输入,我重复第 1 步,然后将其附加到现有的 XLS 文件中,保留突出显示、注释或粗体等格式。
最后,我很好奇我希望这是否适用于 LibreOffice(在我使用的 Linux 中)和 Excel(在同事使用的 Windows 中)。
目前,我很难找到一种将数据附加到现有电子表格而不完全重写它(从而丢失任何格式)的方法。
这是我希望能够使用预加载iris
数据集的示例:
(见截图)
该append=TRUE
选项在这里没有太大帮助,因为它旨在简单地将工作表添加到工作簿。
或者,是否可以将电子表格的格式读入某种 R 对象,然后将其应用于重写的文件,执行如下操作?
有一些类似的命令允许我从 R 定义格式,但我没有找到可以读取然后重写格式的命令
python - Pandas:重新索引和插入非连续数据
我有一个按 24 小时周期排列的数据集,并且我正在尝试创建一个数据清理系统,该系统可以处理可能会跳过小时周期的情况(例如从凌晨 4 点到下午 3 点,例如,在这样的时间段之间没有丢失的行:)
我希望数据集插入并用 NaN 填充缺失的行到目前为止,在加载我的数据后,我已经尝试过
但这对我不起作用。我不确定我做错了什么。我试过查看 stackoverflow 上的其他答案,但没有找到答案。
在此先感谢您的帮助。
编辑:cleanframe 头看起来像这样
和 cleanframe 信息
r - 具有可变数量参数的简单 R 函数
我正在做一个项目,将一堆 stata 代码转换为 R 以执行数据清理,我想做的一件事是编写一个 R 函数来清理我之前编码的所有 Yes/No 变量作为(是 = 1,否 = 2)标准虚拟变量。
问题是需要被这个函数清理的变量的数量会不断变化。所以我的猜测是,该函数需要将(1)包含所有变量的数据集/数据框作为其参数,以及(2)需要清理的变量列表。
对此的任何帮助将不胜感激,因为我对 R 很陌生。
谢谢!
r - 在 R 中清理冗余的按时间顺序排列的团队数据
我有一个看起来像这样的数据集(“dat”):
dat 是按时间顺序排列的。从数据集的开头(即最早的时间点)开始,我想消除以下情况之一:a)完全相同的一组人在以后的时间点组建了一个团队和/或 b)一个子集一个以前组建的团队走到了一起。在这两种情况下,我都想保留较早的分组并消除较新的分组。
例如,在我的示例数据集中,团队 6595978 和 7545798 都应该被淘汰;团队 6595978 是团队 9595288(之前按时间顺序列出)的精确复制品,团队 7545798 是团队 9595288 的子集。但是,团队 2095820 不应被淘汰;虽然团队 2095820 包含之前列出的团队 1595882 的所有成员,但团队 2095820 应该保留,因为添加了一个新成员,人 37506459。
欢迎任何/所有建议。提前致谢!
真诚的,艾米
mysql - 通过文本文件将 DATA 加载到 mySQL
我在 mysql 中创建了一个名为 person 的表,并尝试使用文本文件将数据加载到其中。但是,我有一个限制,我必须在检查 SSN 是否应修剪为适当数量的字符时加载数据。如果该值为空,我还想将 SSN 设置为 NULL。但是,我使用的命令都没有工作。例如,我不知道为什么下面的行不起作用。
有谁知道我做错了什么?谢谢!!
请注意:我将 SSN 的数据类型设置为 Varchar(10)。请告诉我这是否不是该字段最合适的数据类型。
r - 在 R 中所谓的扁平数据框中查找拼写错误(按因素计算的行不同)
我有一个所谓的扁平数据框,有大约 40 列不同的数据类型。对于前 15 列左右,有一个变量充当唯一索引。因为它是一个扁平化的关系数据库,所以在这些列中,该索引变量中具有相同值的所有行应该是相同的。但他们不是。我想找出错别字在哪里。
我做了这个非常简化的例子:
它看起来像这样:
f 是唯一索引。在我的原始数据框中,这是一个已转换为因子的日期,但这无关紧要。如您所见,第 9 行和第 10 行是正确的,因为所有其他变量值都是相同的。第 1、2、5 和 6 行也是正确的,因为每个因子值只有一行。但是第 3-4 行和第 7-8 行是不正确的:它们有错别字,并且变量的值不相同。
我想要的结果是这样的:
如您所见,我也遇到了降价问题。
这个例子很简单,但是如果在多个列中存在不等式(错别字),则最终结果中的“列名”下应该有多个元素。另请注意,我的原始数据框很宽并且有很多列,对于给定的 f 值,只有其中一些列应该是相同的。
事后澄清:所选行始终是该组的第一个(请参阅我对以下评论的回复)。
我只设法得到了有错别字的行,但是以一种非常复杂的方式,我认为发布它没有用。
case - 用于分类的 SQL Server 2014 字符串搜索:多个搜索字符串的复杂 CASE WHEN(规则)
我正在使用不使用受控输入的旧数据输入系统。一切都存储在 varchar(max) 字段中,不幸的是,它包含许多关于事物表达方式的变体。
如果我想知道什么时候校准了,我不能只说“where t.col like '%cal%'
它适用于“CAL, CAL., Calib. Calibrate, calibrate, Calibration,calibration, Cal'd...”之类的情况,但不适用于拼写错误的变体。
此外,此人可能会说“NO cal reqd, didn't cal.,”
文本可以“推断”该动作发生。“校准”可以写成“调整到基线,按程序调整”。
正如您在一个案例中所看到的那样,实际上存在数千个潜在的“规则”。
我花了大约 2 周的时间来处理大约 30K 条记录,并将它们智能地解析为数据所属的大约 30 个(0,1 / true/false)类别。
我想知道是否有人可以指出我使用 T-SQL 来代替手动处理的有用查询构造。
python - 为 col == None 过滤 pandas 数据框
我有一个data_df
包含多列的数据框,其中一列c
包含国家名称。如何过滤掉c == None
.
我的第一次尝试是这样做:
但是,这产生了 0 行。然而,这奏效了:
有人可以解释为什么吗?从 Pandas 文档看来,第一个应该能够正确过滤。
一些示例行:
excel - 如何强制我的 excel 数据进入更少的列
我有一组 3500 行的公司数据。我正在尝试将这些数据转换为一种格式,以便我可以进行统计分析。我的问题是我想获取 C:D 列中的所有数据并转置它们。我知道如何转置数据,但现在我的数据是 3000 列宽。我怎样才能获取这些数据并使其转置后的数据将被限制为 5 列,并且每个附加列都将放在下一列之下。在下图中,绿色是我想要的格式,红色是所有被转置的信息。我希望这个红色信息进入绿色列。请参阅图像以获得更清晰的描述:
非常感谢任何帮助。
python - 在 Pandas 数据框中合并两个变量以形成一个新变量 - Python
我有一个数据框,我想根据两列的值创建一个新的数据框。这对值总是:'x' and 'x'
or'x' and NaN
或NaN and 'x'
or NaN and NaN
。因此,对于前三个示例,新变量的值是 b 'x'
,对于最后一个示例,新变量的值是NaN
。Nan是缺失值。
熊猫数据框是:
我尝试了以下代码,但它根本不起作用。
那么,如何正确创建新变量?