“data-cleaning”的相关标签问题

0 投票

3 回答

2300 浏览

javascript - 确定字符串格式是“2013 年 5 月 16 日”还是带有 Javascript 的 UNIX 时间戳

对大型数据集进行一些数据处理。数据有一个“日期”字段，可以在“1370039735000”和“2013 年 5 月 16 日”等格式之间随机切换。到目前为止，我已经将其他日期字段转换为

或者

如何使用正则表达式或其他方式区分两者？我正在使用 MongoDB，但它都是 Javascript。

2013-12-27T19:33:05.467

0 投票

1 回答

1777 浏览

r - 在R中插入空格

我想插入一个空格：例如 x<-"cyclox 100500 tab" ,y<-" glipicon mg 700600 tab"。我希望输出为“ cyclox 100 500 tab”和“glipicon mg 700 600 tab”，即“100500”到“100 500”和“700600”到“700 600”之间的差距

现在我正在做的是找到 6 位可用的位置。为此我做了

通过申请 xi 得到 f=8 和 yf=13

用于转换我正在使用的数据

因为我想要 8+2 位置和 13+2 位置的空间，从而获得所需的输出

但是当我使用 t<-f+2 时 f 在第一种情况下变为 10 并执行以下操作：

什么都没有发生。我需要将此应用于许多数据，因此我需要使用像 t 这样的变量。

谁能告诉我该怎么做

谢谢

r preprocessor data-cleaning

2014-02-10T15:24:26.960

0 投票

3 回答

66300 浏览

python - 在 Pandas 中查找类型为浮点数或特定类型的所有数据框列？

我有一个数据框 df，它有一些 float64 类型的列，而其他的则是对象。由于混合性质，我不能使用

因为错误发生在类型为 float64 的列上（多么具有误导性的错误消息！）

所以我希望我能做类似的事情

所以我的问题是是否有任何可以与 df.columns 一起使用的过滤器表达式？

我想，或者，不那么优雅，我可以这样做：

我也想知道为什么在上面的代码中用 'unknown' 替换 '' 代码对某些单元格有效，但由于单元格失败，错误为“ValueError: Error parsing datetime string “unknown” at position 0”

非常感谢！

于

python pandas dataframe data-cleaning

2014-02-12T06:09:00.717

0 投票

1 回答

219 浏览

python - Perl 到 Python - CSV 清理

我现在被迫从 Perl 转向 Python，甚至上了一门课。但是我已经在为 CSV 文件执行简单的数据清理任务而苦苦挣扎。我想用特定列中的空格替换 ¶，其他列必须保持不变：

在 Perl 中，这是非常直接的，就像一个魅力：

我怎么能在 Python 中做到这一点？它不需要是一个单行...

python perl csv data-cleaning

2014-02-19T13:21:17.120

0 投票

1 回答

135 浏览

python - 如何从文件中的每一行中识别多个单词和对应的值，例如：“status”：“ok”

我正在尝试创建一个脚本，该脚本基本上允许我从可以插入 SQL DB 的行中创建一个包含特定项目的列表。我在文本文件“addresses.txt”中有多行如下所示：

例如我想删除

最后得到一个列列表和一个可以写入 file_output.txt 的值列表，例如：

这是我到目前为止所拥有的

如果包括我的一些评论尝试，也许它会有所帮助。我还注意到，当我使用时，我#address_list = temp_replace.split(",")所有的 utf-8 字符都被搞砸了，我不知道为什么或如何纠正这个问题。

更新查看此示例如何将 JSON 转换为 CSV？我想出了这段代码来解决我的问题：

但是，这并不能解决我的问题，现在我收到以下错误

任何人都可以帮忙吗？提前致谢。

python json string list data-cleaning

2014-02-20T07:30:35.440

0 投票

2 回答

945 浏览

sql-server-2008 - 数据匹配/去重 Sql server 2008 R2

处理 MS SQL Server 2008 R2 时进行数据清理过程（重复数据删除/匹配）的选项有哪些？或者更好的是，我如何在一行的列上对匹配过程的分数进行加权？情况如下：我的数据库中有一个persons 表，其他数据库表中有关联的地址和文档？如何根据姓名、文件序列号和地址做出最佳匹配决定？据我了解，SSIS 模糊摸索不支持此功能：加权评分。

sql-server-2008 weighted deduplication data-cleaning master-data-services

2014-03-17T10:50:08.723

0 投票

1 回答

49 浏览

sql-server - 需要从子字符串中删除数据

我没有最模糊的如何从我的列中删除子字符串，我已经在这里寻找了几天，每个人似乎都想从最后而不是开始删除数据。

列数据：/data/data/data.com --data=nameiwant2keep

栏目名称：column1

表名：table1

感谢您的任何帮助。

sql-server substring data-cleaning

2014-03-31T15:47:27.540

0 投票

1 回答

132 浏览

data-cleaning - openrefine 标志更改的行

我正在使用 openrefine 清理 excel 数据集。我有大约 70 次操作，我一直在剪切和粘贴不同的数据集。我维护一个记录 ID 并导出到一个新的 Excel 表。然后我使用记录 ID 重新加载工作表。

它运行良好，但即使只有少数记录发生更改，我也必须重新加载整个数据库。有没有一种简单的方法来标记更改的记录，所以我只将更改的记录导出/导入到应用程序？

我可以轻松地在 70 个操作中添加一个标志来标记仅更改的记录吗？

data-cleaning openrefine opendata

2014-05-07T17:41:06.203

0 投票

5 回答

1222 浏览

regex - 从管道分隔文件中删除不以时间戳开头的行的换行符

以下是数据示例：

我需要一个脚本来从不以时间戳开头的行中删除换行符。在上面的示例中，第 2-5 行将附加到文本块中第一行的最后一个字段。我知道如何检测好的线条，

还有坏线，

现在的问题是，我如何应用它（使用 sed？）以便将“好”行后面的行放回该行的最后一个字段。在这里的任何帮助将不胜感激。

这是所需输出的示例：

编辑：

对于哪个是最合适的工具存在一些分歧。目前我倾向于记事本++。这与我想做的事情很接近，但它不是很有效，也许有人可以帮我调整它以适应我的用例：

问题是 .* 捕获了我试图否定的时间戳。有什么想法吗？

编辑2：感谢大家的有用建议，这绝对让我朝着正确的方向前进！以下正则表达式在 notepad++ 中找到有问题的 \n char，但是当我尝试执行替换时，没有任何反应：

这里有没有人有关于如何强制 notepad++ 删除有问题的 \n 的任何想法？

编辑 3：这是似乎不适用于建议的解决方案的附加示例数据：

regex sed notepad++data-cleaning

2014-05-14T15:58:59.617

0 投票

0 回答

341 浏览

python - 清理 UTF-8 中的文本

我有一个界面，用户可以在其中为不同类型的实体在一行文本中输入人类可读的名称，主要是指与业务相关的任务、活动和操作。这也包括数字。

我们希望这个界面支持多种人类语言，但同时我们希望避免以后可能会破坏事物的条目，特别是格式、换行符、制表符以及不打印的字符组合或控制代码。

我是本地化主题的新手，但是是否有任何众所周知的utf-8字符子集或用于验证多语言 (utf-8) 文本的一组实践？从实际的角度来看，我最感兴趣的是 Python 中的解决方案，但绝对对其他语言的通用解决方案持开放态度。这样做的人应该注意什么？

python validation utf-8 data-cleaning

2014-05-22T15:40:29.263

问题标签 [data-cleaning]

Reference