问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Clean nested lists in Python
Say I have a list in Python:
I would like to clean all the nested lists so that, if they are of length 1 (just one item), the are "pulled up" out of the list, such that the revised list would look like:
Naturally I can just check if len == 1
and replace that index with its contents, but... Is there a built-in way to do this?
python - 在句子标记之前在python中删除多个\ n
我是编程的新手,我正在从一本书和 Stack Overflow 中自学。我正在尝试删除聊天语料库中 \n 的多个实例,然后对句子进行标记。如果我不删除 \n,则字符串如下所示:
我尝试了几种不同的方法,例如 chomps、line、rstrip 等,但它们似乎都不起作用。可能是我用错了。整个代码如下所示:
当我使用 line 方法时,我收到此错误:
帮助?
dataset - 清理具有高度相似观察的变量
因此,我在 Stata 中有一个数据集,其中有一个名为“程序描述”的变量,该变量具有非常相似的观察结果,尽管观察结果不遵循任何模式。我的目标是清理变量,以便非常相似的观察结果具有相同的名称。
以下是变量的示例:
因此,我希望前三个被称为“phys ed”(或它的某种派生词),后三个被称为“学习障碍”
我一直在使用该函数strpos()
来替换包含某些短语的观察值,但由于变量有 100k 观察值和许多不同的名称,这需要一段时间。
excel - 从 Excel 字段中解析名字和姓氏
我在 excel 中有一个字段(列),格式为“LastName,FirstName MiddleInitial”,在姓氏和名字之后的逗号之间有一个空格,在中间名和名字之间有第二个空格(后面没有逗号名)。有没有办法确定哪些单元格的右侧有中间首字母,然后消除所有单元格的中间首字母,使输出看起来像“姓氏,名字”?
谢谢!
html - 使用 Reshape2 清理 HTML 表格
R的新用户。甚至想不出怎么问这个问题。我为 HTML 表格抓取了一个网页。一般来说,一切都很顺利,除了一张桌子。不是有 7 个单独的表,而是将所有内容折叠到 1 个表中,第一个表的列名和值是两个单独的列,所有其他表都是行。结果是一个类似这样的表格:
显然,我需要将第一列中的行(和列名)作为它们自己的列,将第二列中的项目作为它们的值,最好在列名中使用下划线。我试过了:
但收到一条错误消息。然后我想添加另一列,例如:
然后我尝试了
这将第一列中的值作为它们自己的列,但产生了两行(而不是 1 行),带有 NA。我确定这真的很基本,但我无法弄清楚。
编辑时:我认为这给了我我想要的东西,但我远离我的电脑,所以我无法确认:
我需要添加 n
或获得 NA,但我不喜欢它。
variables - 按变量名称中的字符模式删除变量 (SAS)
我想删除名称中带有特定字符段的所有变量。下面的例子:
我只想保留前面没有“o_”的那些。我可以按位置排序并保留前 x 个变量,但是对于具有这种模式的 100 个变量,我想寻找一个替代方案。
regex - R - 数据清理 - 不是 alpha 时只返回数字
我对编程很陌生,怀疑我需要使用正则表达式来解决我的问题。
1.问题
我有需要去除非字母数字字符的数据——我已经解决了。但我还需要返回元素仅为数字的值。
2. 例子
“NewdataColumn”是我想要返回的。
任何帮助,将不胜感激。
编辑
我的部分解决方案是使用stringr
包gsub
功能。例如gsub("[^a-zA-Z0-9]", "", MyDataColumn)
。它摆脱了非字母数字字符。剩下的问题是只返回数字元素(如果元素包含 alpha,则返回 NA)。
python-2.7 - 如果 Python Pandas 中的某些变量中缺少行,则删除行
我正在尝试使用 Pandas 删除包含缺失种族信息的行,尽管我对 Pandas 并不陌生。
使用 'print name[ethnic.isnull() == True]' 我可以想象哪些人缺少种族信息。但最终我想 1)通过将缺失种族案例的索引附加到“缺失数组”中来记录索引,2)然后通过删除索引与“缺失”数组中的行匹配的所有行来创建第二帧。
我目前被困在“for case in frame”循环中,我尝试打印那些缺少种族的人的名字。但是我的程序没有错误地结束,但没有打印出任何东西。
excel - 框架不完整时清理数据(删除行)的 Excel 宏
我有一个电子表格,其中包含需要清理的 4 个传感器的数据。有很多帧丢失了传感器,我需要删除不完整的帧集(换句话说,删除那些没有所有 4 个传感器数据的帧)。
A 列是传感器#
B 列是帧#(帧数从不从 1 开始)。
C 列是 x
D 列是 y
E 列是 z
对于一个完整的帧,B 列将在 4 个连续的行中具有相同的帧#。我想删除属于不完整框架的每一行。
我的数据如下所示:
1, 3579, x1, y1, z1
2, 3579, x2, y2, z2
7, 3579, x7, y7, z7
8, 3579, x8, y8, z8
1, 3580, x1, y1, z1
2, 3580, x2 , y2, z2
7, 3580, x7, y7, z7
8, 3580, x8, y8, z8
1, 3581, x1, y1, z1
2, 3581, x2, y2, z2
7, 3581, x7, y7, z7
8 , 3581, x8, y8, z8
1, 3582, x1, y1, z1
2, 3582, x2, y2, z2
7, 3582, x7, y7, z7
8, 3582, x8, y8, z8
1, 3583, x1, y1, z1
2, 3583, x2, y2, z2
1, 3584, x1, y1, z1
2, 3584, x2, y2, z2
1, 3585, x1, y1, z1
2, 3585, x2, y2, z2
1, 3586, x1, y1, z1
2, 3586, x2, y2, z2
7, 3586, x7, y7, z7
8, 3586, x8, y8, z8
在上面的数据集中,我想删除不完整帧 3583、3584 和 3585的粗体行。
任何人都可以帮助使用宏吗?我有数百个工作表要处理,因此公式、填写、过滤和复制/粘贴需要几天时间。非常感谢您提供的任何帮助!
我在具有 8 个传感器的早期数据集上尝试了此代码(它使用传感器#而不是帧#),但它没有工作。
我有数百个文件,所以我不想导入到 Matlab,运行脚本然后导出回 excel。但这里是在概念上工作的 Matlab 代码(第 4 列包含此数据集中的帧#):
cucumber - 我们可以使用黄瓜自定义格式化程序来初始化和清理数据吗?
我正在使用黄瓜来测试我的应用程序。我必须为功能设置大数据并在功能完成后进行清理。在对网络进行了一些研究之后,我发现只有场景的钩子,而不是功能的前后钩子。
此外,我发现 cucumber 会通知格式化程序其执行生命周期。
所以,问题是,我可以使用自定义格式化程序并监听 before_feature 和 after_feature 事件来初始化和清理数据吗?是否允许?
谢谢,
姆卡拉科塔