问题标签 [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
310 浏览

python - Clean nested lists in Python

Say I have a list in Python:

I would like to clean all the nested lists so that, if they are of length 1 (just one item), the are "pulled up" out of the list, such that the revised list would look like:

Naturally I can just check if len == 1 and replace that index with its contents, but... Is there a built-in way to do this?

0 投票
2 回答
966 浏览

python - 在句子标记之前在python中删除多个\ n

我是编程的新手,我正在从一本书和 Stack Overflow 中自学。我正在尝试删除聊天语料库中 \n 的多个实例,然后对句子进行标记。如果我不删除 \n,则字符串如下所示:

我尝试了几种不同的方法,例如 chomps、line、rstrip 等,但它们似乎都不起作用。可能是我用错了。整个代码如下所示:

当我使用 line 方法时,我收到此错误:

帮助?

0 投票
1 回答
614 浏览

dataset - 清理具有高度相似观察的变量

因此,我在 Stata 中有一个数据集,其中有一个名为“程序描述”的变量,该变量具有非常相似的观察结果,尽管观察结果不遵循任何模式。我的目标是清理变量,以便非常相似的观察结果具有相同的名称。

以下是变量的示例:

因此,我希望前三个被称为“phys ed”(或它的某种派生词),后三个被称为“学习障碍”

我一直在使用该函数strpos()来替换包含某些短语的观察值,但由于变量有 100k 观察值和许多不同的名称,这需要一段时间。

0 投票
2 回答
2316 浏览

excel - 从 Excel 字段中解析名字和姓氏

我在 excel 中有一个字段(列),格式为“LastName,FirstName MiddleInitial”,在姓氏和名字之后的逗号之间有一个空格,在中间名和名字之间有第二个空格(后面没有逗号名)。有没有办法确定哪些单元格的右侧有中间首字母,然后消除所有单元格的中间首字母,使输出看起来像“姓氏,名字”?

谢谢!

0 投票
1 回答
95 浏览

html - 使用 Reshape2 清理 HTML 表格

R的新用户。甚至想不出怎么问这个问题。我为 HTML 表格抓取了一个网页。一般来说,一切都很顺利,除了一张桌子。不是有 7 个单独的表,而是将所有内容折叠到 1 个表中,第一个表的列名和值是两个单独的列,所有其他表都是行。结果是一个类似这样的表格:

显然,我需要将第一列中的行(和列名)作为它们自己的列,将第二列中的项目作为它们的值,最好在列名中使用下划线。我试过了:

但收到一条错误消息。然后我想添加另一列,例如:

然后我尝试了

这将第一列中的值作为它们自己的列,但产生了两行(而不是 1 行),带有 NA。我确定这真的很基本,但我无法弄清楚。

编辑时:我认为这给了我我想要的东西,但我远离我的电脑,所以我无法确认:

我需要添加 n或获得 NA,但我不喜欢它。

0 投票
1 回答
157 浏览

variables - 按变量名称中的字符模式删除变量 (SAS)

我想删除名称中带有特定字符段的所有变量。下面的例子:

我只想保留前面没有“o_”的那些。我可以按位置排序并保留前 x 个变量,但是对于具有这种模式的 100 个变量,我想寻找一个替代方案。

0 投票
1 回答
673 浏览

regex - R - 数据清理 - 不是 alpha 时只返回数字

我对编程很陌生,怀疑我需要使用正则表达式来解决我的问题。

1.问题

我有需要去除非字母数字字符的数据——我已经解决了。但我还需要返回元素仅为数字的值。

2. 例子

“NewdataColumn”是我想要返回的。

任何帮助,将不胜感激。

编辑 我的部分解决方案是使用stringrgsub功能。例如gsub("[^a-zA-Z0-9]", "", MyDataColumn)。它摆脱了非字母数字字符。剩下的问题是只返回数字元素(如果元素包含 alpha,则返回 NA)。

0 投票
1 回答
1789 浏览

python-2.7 - 如果 Python Pandas 中的某些变量中缺少行,则删除行

我正在尝试使用 Pandas 删除包含缺失种族信息的行,尽管我对 Pandas 并不陌生。

使用 'print name[ethnic.isnull() == True]' 我可以想象哪些人缺少种族信息。但最终我想 1)通过将缺失种族案例的索引附加到“缺失数组”中来记录索引,2)然后通过删除索引与“缺失”数组中的行匹配的所有行来创建第二帧。

我目前被困在“for case in frame”循环中,我尝试打印那些缺少种族的人的名字。但是我的程序没有错误地结束,但没有打印出任何东西。

0 投票
1 回答
888 浏览

excel - 框架不完整时清理数据(删除行)的 Excel 宏

我有一个电子表格,其中包含需要清理的 4 个传感器的数据。有很多帧丢失了传感器,我需要删除不完整的帧集(换句话说,删除那些没有所有 4 个传感器数据的帧)。

A 列是传感器#
B 列是帧#(帧数从不从 1 开始)。
C 列是 x
D 列是 y
E 列是 z

对于一个完整的帧,B 列将在 4 个连续的行中具有相同的帧#。我想删除属于不完整框架的每一行。

我的数据如下所示:

1, 3579, x1, y1, z1
2, 3579, x2, y2, z2
7, 3579, x7, y7, z7
8, 3579, x8, y8, z8
1, 3580, x1, y1, z1
2, 3580, x2 , y2, z2
7, 3580, x7, y7, z7
8, 3580, x8, y8, z8
1, 3581, x1, y1, z1
2, 3581, x2, y2, z2
7, 3581, x7, y7, z7
8 , 3581, x8, y8, z8
1, 3582, x1, y1, z1
2, 3582, x2, y2, z2
7, 3582, x7, y7, z7
8, 3582, x8, y8, z8
1, 3583, x1, y1, z1
2, 3583, x2, y2, z2
1, 3584, x1, y1, z1
2, 3584, x2, y2, z2
1, 3585, x1, y1, z1
2, 3585, x2, y2, z2

1, 3586, x1, y1, z1
2, 3586, x2, y2, z2
7, 3586, x7, y7, z7
8, 3586, x8, y8, z8

在上面的数据集中,我想删除不完整帧 3583、3584 和 3585的粗体行。

任何人都可以帮助使用宏吗?我有数百个工作表要处理,因此公式、填写、过滤和复制/粘贴需要几天时间。非常感谢您提供的任何帮助!

我在具有 8 个传感器的早期数据集上尝试了此代码(它使用传感器#而不是帧#),但它没有工作。

我有数百个文件,所以我不想导入到 Matlab,运行脚本然后导出回 excel。但这里是在概念上工作的 Matlab 代码(第 4 列包含此数据集中的帧#):

0 投票
1 回答
110 浏览

cucumber - 我们可以使用黄瓜自定义格式化程序来初始化和清理数据吗?

我正在使用黄瓜来测试我的应用程序。我必须为功能设置大数据并在功能完成后进行清理。在对网络进行了一些研究之后,我发现只有场景的钩子,而不是功能的前后钩子。

此外,我发现 cucumber 会通知格式化程序其执行生命周期。

所以,问题是,我可以使用自定义格式化程序并监听 before_feature 和 after_feature 事件来初始化和清理数据吗?是否允许?

谢谢,

姆卡拉科塔