“data-cleaning”的相关标签问题

0 投票

4 回答

8306 浏览

python - 熊猫中的多列分解

pandasfactorize函数将系列中的每个唯一值分配给一个从 0 开始的顺序索引，并计算每个系列条目所属的索引。

我想pandas.factorize在多列上完成相当于：

也就是说，我想确定数据帧的几列中每个唯一的值元组，为每个值分配一个顺序索引，并计算数据帧中的每一行属于哪个索引。

Factorize仅适用于单列。pandas 中是否有多列等效函数？

2013-05-09T02:39:55.703

0 投票

1 回答

943 浏览

python - Python - 清理数据以运行先验算法

我有一组文章中使用的所有单词的主列表，现在我正在尝试计算每篇文章中主列表中每个单词的出现次数。然后我将尝试在数据上建立一些关联规则。例如，我的数据可能如下所示：

我需要将我的数据转换成这种格式：

我正在努力进行这种转换，我一直在玩 nltk，但我不知道如何计算其中包含不存在的单词的计数。任何帮助将不胜感激！

python data-cleaning apriori

2013-05-12T19:36:27.133

0 投票

1 回答

66 浏览

r - 在 R 中合并跨国面板数据库

考虑到两个困难，如何合并跨国数据库：

并非所有数据库都有国家代码变量
某些国家/地区的名称略有不同（例如，老挝为老挝人民民主共和国，韩国为韩国共和国）

这是社会科学中如此常见的任务，但除了手动匹配国名之外，我还没有想到一种有效的方法来做到这一点。

r merge data-cleaning economics

2013-05-28T07:53:16.147

0 投票

1 回答

445 浏览

user-interface - User Friendly Data Cleaning

I feel kind of silly asking this, but I need a GUI tool for data cleaning.

An executive has offered to take over some of my data cleaning work if I can simplify the tasks. I've been using R to clean the data and Awk to split it, which is beyond his technical ability or interest. I offered to write a Python script that does everything in one shot, he'd rather have a GUI.

All of our data is in CSV files, most of which have ~10 columns and < 2,000 rows. The cleaning involves removing some rows, adding a few others, and splitting them up into CSV files by column values (date, in this case). The output is usually a dozen CSV files of "clean" data.

Are there any user-friendly tools for CSV editing & splitting? Excel destroys our data, so that's out. I'm looking at Google Refine, I think that could be a good option but I'm not sure that it will split the data.

Has anyone else faced the issue of needing user-friendly tools for data cleaning? I've done a few searches for data cleaning tools but haven't turned up anything.

user-interface csv data-cleaning user-friendly

2013-05-28T15:15:48.413

0 投票

1 回答

346 浏览

java - 您将如何从跟踪查询字符串变量中清理 URL？

我有大约 1000 个 URL，任务是计算它们的出现次数并打印最高频率。当单篇文章有多个 URL 时会出现此问题。下面的例子：

所有这些都指向同一篇文章，但是，它们的不同之处在于一些第三方跟踪变量。我可以使用 RegExp 消除追随者，但可能有无限的变体。另外，我不能删除整个查询字符串，因为它可能包含真正的变量（即show.php?p=12）

问题： 是否有这些变量的完整列表？你过去有没有用更好的方法做到这一点？

java regex url clean-urls data-cleaning

2013-06-06T08:45:31.200

0 投票

1 回答

269 浏览

excel - 如何在excel中呈现/组织单元格中包含的重复数据？

是否有更好的方法来呈现/组织 Excel 中单元格中包含的重复数据？我在下面提供了一组示例数据（出于保密原因，我无法显示我的实际记录），以便你们可以可视化数据。

国家 | 类型 | 公司 | 部门 | 项目 | 货币 | 数量

美国 | 餐厅 | 鲍勃的烧烤 | 卫生 | 每月卫生 | 记录数据库 | 美元 | 100

美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工时间表美元 | 203

美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工电子邮件门户 | 美元 | 259

美国 | 制造 | 达夫汽车 | 研发| 库存系统| 美元 | 234

美国 | 制造 | 达夫汽车 | 销售 | 库存系统 | 美元 | 654

中国 | 制造 | 伟华电子| 研发| 库存系统 | 人民币 | 102

中国 | 政府 | 旅游系 | 广告 | 广告牌设计和部署门户网站 | 人民币 | 2044

如您所见，它包含大量重复数据，例如“国家”和“类型”。它可能看起来井井有条，但随着数据的增加，它看起来很混乱。在过去的几天里，我已经彻底考虑了这一点，但我仍然想不出一种方法来组织它，使它看起来很漂亮。

我已经尝试过 Excel 的筛选功能、排序和其他功能，但我仍然认为它看起来很杂乱。有什么建议么？谢谢！

excel data-cleaning data-representation organized

2013-06-08T16:33:13.357

0 投票

1 回答

2118 浏览

python - python列表中的Writerrows - 我如何删除括号和撇号

我有以下 python 代码，它通过我的 csv 文件，删除所有百分号 (%)，并将文件重写回新的 csv 文件。

在我运行代码之前，数据如下所示：

| 第 1 栏 | 第 2 栏 | 第 3 栏 | 第 4 栏 | 等|

现在，它看起来像这样：

| ['第 1 列' | '第 2 列' | '第 3 列' | '第 4 列' | '等'] |

我不希望我的数据包含由 python 的列表功能创建的括号/撇号。恐怕它要么a）在上传时包含在我的数据库中，要么b）将导入轰炸到mySQL数据库。有什么办法吗？

在此先感谢，丹

这是我的代码：

python list data-cleaning

2013-06-19T03:51:58.277

0 投票

2 回答

4717 浏览

java - 使用 Hive 清理大数据

我正在使用 Hive 来查询我拥有的数据。问题是，这些数据需要清理，而且对于我来说太大了，无法在我的计算机上尝试处理它（因此使用 Hadoop 和 Hive）。有没有办法让我用 Hive 做到这一点？我研究了用户定义的函数，但我的理解是它们逐行操作，因此可能不是清理数据的最佳方式。

谢谢

java hadoop hive data-cleaning

2013-07-16T02:46:13.357

0 投票

1 回答

1172 浏览

mysql - 清理已经规范化的 mySQL 数据库的工具？

我有一个 MySQL 数据库，我需要清理其中的数据。

我正在寻找是否有工具可以帮助一次清理规范化表。

例子：

User表包括代码make和model
Make表有我想巩固的
Model表有我想整合的模型

手动执行此操作是一场噩梦：

更改model表中的引用（例如删除冗余模型“B”和“C”，留下模型“A”
现在所有users引用models“B”或“C”都需要手动更改为引用model“A”

更改 amake更加困难，因为所有models都必须移动到剩余的make，user表更新等。

是否有工具可以使这个简单，也许是图形化的？

mysql sql data-cleaning

2013-08-19T00:14:03.583

0 投票

1 回答

22454 浏览

django - modelform：覆盖清洁方法

关于模型表单上的 clean 方法，我有两个问题。这是我的例子：

我应该总是调用标准清洁方法吗？
/li>
我应该总是返回cleaned_data 变量吗？
/li>

django overriding modelform data-cleaning

2013-08-22T04:00:02.813

问题标签 [data-cleaning]

Reference