“data-cleaning”的相关标签问题

0 投票

1 回答

310 浏览

python - Clean nested lists in Python

Say I have a list in Python:

I would like to clean all the nested lists so that, if they are of length 1 (just one item), the are "pulled up" out of the list, such that the revised list would look like:

Naturally I can just check if len == 1 and replace that index with its contents, but... Is there a built-in way to do this?

2014-10-28T22:10:06.707

0 投票

2 回答

966 浏览

python - 在句子标记之前在python中删除多个\ n

我是编程的新手，我正在从一本书和 Stack Overflow 中自学。我正在尝试删除聊天语料库中 \n 的多个实例，然后对句子进行标记。如果我不删除 \n，则字符串如下所示：

我尝试了几种不同的方法，例如 chomps、line、rstrip 等，但它们似乎都不起作用。可能是我用错了。整个代码如下所示：

当我使用 line 方法时，我收到此错误：

帮助？

python web-scraping nlp nltk data-cleaning

2014-10-30T19:00:58.330

0 投票

1 回答

614 浏览

dataset - 清理具有高度相似观察的变量

因此，我在 Stata 中有一个数据集，其中有一个名为“程序描述”的变量，该变量具有非常相似的观察结果，尽管观察结果不遵循任何模式。我的目标是清理变量，以便非常相似的观察结果具有相同的名称。

以下是变量的示例：

因此，我希望前三个被称为“phys ed”（或它的某种派生词），后三个被称为“学习障碍”

我一直在使用该函数strpos()来替换包含某些短语的观察值，但由于变量有 100k 观察值和许多不同的名称，这需要一段时间。

dataset stata data-cleaning

2014-11-05T22:00:55.823

0 投票

2 回答

2316 浏览

excel - 从 Excel 字段中解析名字和姓氏

我在 excel 中有一个字段（列），格式为“LastName，FirstName MiddleInitial”，在姓氏和名字之后的逗号之间有一个空格，在中间名和名字之间有第二个空格（后面没有逗号名）。有没有办法确定哪些单元格的右侧有中间首字母，然后消除所有单元格的中间首字母，使输出看起来像“姓氏，名字”？

谢谢！

excel format excel-formula data-cleaning

2014-11-10T21:47:19.840

0 投票

1 回答

95 浏览

html - 使用 Reshape2 清理 HTML 表格

R的新用户。甚至想不出怎么问这个问题。我为 HTML 表格抓取了一个网页。一般来说，一切都很顺利，除了一张桌子。不是有 7 个单独的表，而是将所有内容折叠到 1 个表中，第一个表的列名和值是两个单独的列，所有其他表都是行。结果是一个类似这样的表格：

显然，我需要将第一列中的行（和列名）作为它们自己的列，将第二列中的项目作为它们的值，最好在列名中使用下划线。我试过了：

但收到一条错误消息。然后我想添加另一列，例如：

然后我尝试了

这将第一列中的值作为它们自己的列，但产生了两行（而不是 1 行），带有 NA。我确定这真的很基本，但我无法弄清楚。

编辑时：我认为这给了我我想要的东西，但我远离我的电脑，所以我无法确认：

我需要添加 n或获得 NA，但我不喜欢它。

html r tidyr data-cleaning reshape2

2014-11-12T09:39:53.773

0 投票

1 回答

157 浏览

variables - 按变量名称中的字符模式删除变量 (SAS)

我想删除名称中带有特定字符段的所有变量。下面的例子：

我只想保留前面没有“o_”的那些。我可以按位置排序并保留前 x 个变量，但是对于具有这种模式的 100 个变量，我想寻找一个替代方案。

variables sas data-cleaning

2014-11-13T16:20:07.933

0 投票

1 回答

673 浏览

regex - R - 数据清理 - 不是 alpha 时只返回数字

我对编程很陌生，怀疑我需要使用正则表达式来解决我的问题。

1.问题

我有需要去除非字母数字字符的数据——我已经解决了。但我还需要返回元素仅为数字的值。

2. 例子

“NewdataColumn”是我想要返回的。

任何帮助，将不胜感激。

编辑我的部分解决方案是使用stringr包gsub功能。例如gsub("[^a-zA-Z0-9]", "", MyDataColumn)。它摆脱了非字母数字字符。剩下的问题是只返回数字元素（如果元素包含 alpha，则返回 NA）。

regex r data-cleaning

2014-11-17T05:04:03.710

0 投票

1 回答

1789 浏览

python-2.7 - 如果 Python Pandas 中的某些变量中缺少行，则删除行

我正在尝试使用 Pandas 删除包含缺失种族信息的行，尽管我对 Pandas 并不陌生。

使用 'print name[ethnic.isnull() == True]' 我可以想象哪些人缺少种族信息。但最终我想 1）通过将缺失种族案例的索引附加到“缺失数组”中来记录索引，2）然后通过删除索引与“缺失”数组中的行匹配的所有行来创建第二帧。

我目前被困在“for case in frame”循环中，我尝试打印那些缺少种族的人的名字。但是我的程序没有错误地结束，但没有打印出任何东西。

python-2.7 pandas missing-data data-cleaning

2014-11-18T02:06:23.583

0 投票

1 回答

888 浏览

excel - 框架不完整时清理数据（删除行）的 Excel 宏

我有一个电子表格，其中包含需要清理的 4 个传感器的数据。有很多帧丢失了传感器，我需要删除不完整的帧集（换句话说，删除那些没有所有 4 个传感器数据的帧）。

A 列是传感器#
B 列是帧#（帧数从不从 1 开始）。
C 列是 x
D 列是 y
E 列是 z

对于一个完整的帧，B 列将在 4 个连续的行中具有相同的帧#。我想删除属于不完整框架的每一行。

我的数据如下所示：

1, 3579, x1, y1, z1
2, 3579, x2, y2, z2
7, 3579, x7, y7, z7
8, 3579, x8, y8, z8
1, 3580, x1, y1, z1
2, 3580, x2 , y2, z2
7, 3580, x7, y7, z7
8, 3580, x8, y8, z8
1, 3581, x1, y1, z1
2, 3581, x2, y2, z2
7, 3581, x7, y7, z7
8 , 3581, x8, y8, z8
1, 3582, x1, y1, z1
2, 3582, x2, y2, z2
7, 3582, x7, y7, z7
8, 3582, x8, y8, z8
1, 3583, x1, y1, z1
2, 3583, x2, y2, z2
1, 3584, x1, y1, z1
2, 3584, x2, y2, z2
1, 3585, x1, y1, z1
2, 3585, x2, y2, z2
1, 3586, x1, y1, z1
2, 3586, x2, y2, z2
7, 3586, x7, y7, z7
8, 3586, x8, y8, z8

在上面的数据集中，我想删除不完整帧 3583、3584 和 3585的粗体行。

任何人都可以帮助使用宏吗？我有数百个工作表要处理，因此公式、填写、过滤和复制/粘贴需要几天时间。非常感谢您提供的任何帮助！

我在具有 8 个传感器的早期数据集上尝试了此代码（它使用传感器＃而不是帧＃），但它没有工作。

我有数百个文件，所以我不想导入到 Matlab，运行脚本然后导出回 excel。但这里是在概念上工作的 Matlab 代码（第 4 列包含此数据集中的帧#）：

excel delete-row data-cleaning vba

2014-11-23T01:13:56.523

0 投票

1 回答

110 浏览

cucumber - 我们可以使用黄瓜自定义格式化程序来初始化和清理数据吗？

我正在使用黄瓜来测试我的应用程序。我必须为功能设置大数据并在功能完成后进行清理。在对网络进行了一些研究之后，我发现只有场景的钩子，而不是功能的前后钩子。

此外，我发现 cucumber 会通知格式化程序其执行生命周期。

所以，问题是，我可以使用自定义格式化程序并监听 before_feature 和 after_feature 事件来初始化和清理数据吗？是否允许？

谢谢，

姆卡拉科塔

cucumber formatter data-cleaning

2014-11-24T17:37:35.407

问题标签 [data-cleaning]

Reference