问题标签 [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
8306 浏览

python - 熊猫中的多列分解

pandasfactorize函数将系列中的每个唯一值分配给一个从 0 开始的顺序索引,并计算每个系列条目所属的索引。

我想pandas.factorize在多列上完成相当于:

也就是说,我想确定数据帧的几列中每个唯一的值元组,为每个值分配一个顺序索引,并计算数据帧中的每一行属于哪个索引。

Factorize仅适用于单列。pandas 中是否有多列等效函数?

0 投票
1 回答
943 浏览

python - Python - 清理数据以运行先验算法

我有一组文章中使用的所有单词的主列表,现在我正在尝试计算每篇文章中主列表中每个单词的出现次数。然后我将尝试在数据上建立一些关联规则。例如,我的数据可能如下所示:

我需要将我的数据转换成这种格式:

我正在努力进行这种转换,我一直在玩 nltk,但我不知道如何计算其中包含不存在的单词的计数。任何帮助将不胜感激!

0 投票
1 回答
66 浏览

r - 在 R 中合并跨国面板数据库

考虑到两个困难,如何合并跨国数据库:

  1. 并非所有数据库都有国家代码变量
  2. 某些国家/地区的名称略有不同(例如,老挝为老挝人民民主共和国,韩国为韩国共和国)

这是社会科学中如此常见的任务,但除了手动匹配国名之外,我还没有想到一种有效的方法来做到这一点。

0 投票
1 回答
445 浏览

user-interface - User Friendly Data Cleaning

I feel kind of silly asking this, but I need a GUI tool for data cleaning.

An executive has offered to take over some of my data cleaning work if I can simplify the tasks. I've been using R to clean the data and Awk to split it, which is beyond his technical ability or interest. I offered to write a Python script that does everything in one shot, he'd rather have a GUI.

All of our data is in CSV files, most of which have ~10 columns and < 2,000 rows. The cleaning involves removing some rows, adding a few others, and splitting them up into CSV files by column values (date, in this case). The output is usually a dozen CSV files of "clean" data.

Are there any user-friendly tools for CSV editing & splitting? Excel destroys our data, so that's out. I'm looking at Google Refine, I think that could be a good option but I'm not sure that it will split the data.

Has anyone else faced the issue of needing user-friendly tools for data cleaning? I've done a few searches for data cleaning tools but haven't turned up anything.

0 投票
1 回答
346 浏览

java - 您将如何从跟踪查询字符串变量中清理 URL?

我有大约 1000 个 URL,任务是计算它们的出现次数并打印最高频率。当单篇文章有多个 URL 时会出现此问题。下面的例子:

所有这些都指向同一篇文章,但是,它们的不同之处在于一些第三方跟踪变量。我可以使用 RegExp 消除追随者,但可能有无限的变体。另外,我不能删除整个查询字符串,因为它可能包含真正的变量(即show.php?p=12

问题: 是否有这些变量的完整列表?你过去有没有用更好的方法做到这一点?

0 投票
1 回答
269 浏览

excel - 如何在excel中呈现/组织单元格中包含的重复数据?

是否有更好的方法来呈现/组织 Excel 中单元格中包含的重复数据?我在下面提供了一组示例数据(出于保密原因,我无法显示我的实际记录),以便你们可以可视化数据。

国家 | 类型 | 公司 | 部门 | 项目 | 货币 | 数量

美国 | 餐厅 | 鲍勃的烧烤 | 卫生 | 每月卫生 | 记录数据库 | 美元 | 100

美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工时间表美元 | 203

美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工电子邮件门户 | 美元 | 259

美国 | 制造 | 达夫汽车 | 研发| 库存系统| 美元 | 234

美国 | 制造 | 达夫汽车 | 销售 | 库存系统 | 美元 | 654

中国 | 制造 | 伟华电子| 研发| 库存系统 | 人民币 | 102

中国 | 政府 | 旅游系 | 广告 | 广告牌设计和部署门户网站 | 人民币 | 2044

如您所见,它包含大量重复数据,例如“国家”和“类型”。它可能看起来井井有条,但随着数据的增加,它看起来很混乱。在过去的几天里,我已经彻底考虑了这一点,但我仍然想不出一种方法来组织它,使它看起来很漂亮。

我已经尝试过 Excel 的筛选功能、排序和其他功能,但我仍然认为它看起来很杂乱。有什么建议么?谢谢!

0 投票
1 回答
2118 浏览

python - python列表中的Writerrows - 我如何删除括号和撇号

我有以下 python 代码,它通过我的 csv 文件,删除所有百分号 (%),并将文件重写回新的 csv 文件。

在我运行代码之前,数据如下所示:

| 第 1 栏 | 第 2 栏 | 第 3 栏 | 第 4 栏 | 等|

现在,它看起来像这样:

| ['第 1 列' | '第 2 列' | '第 3 列' | '第 4 列' | '等'] |

我不希望我的数据包含由 python 的列表功能创建的括号/撇号。恐怕它要么a)在上传时包含在我的数据库中,要么b)将导入轰炸到mySQL数据库。有什么办法吗?

在此先感谢,丹

这是我的代码:

0 投票
2 回答
4717 浏览

java - 使用 Hive 清理大数据

我正在使用 Hive 来查询我拥有的数据。问题是,这些数据需要清理,而且对于我来说太大了,无法在我的计算机上尝试处理它(因此使用 Hadoop 和 Hive)。有没有办法让我用 Hive 做到这一点?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式。

谢谢

0 投票
1 回答
1172 浏览

mysql - 清理已经规范化的 mySQL 数据库的工具?

我有一个 MySQL 数据库,我需要清理其中的数据。

我正在寻找是否有工具可以帮助一次清理规范化表。

例子:

  • User表包括代码makemodel
  • Make表有我想巩固的
  • Model表有我想整合的模型

手动执行此操作是一场噩梦:

  1. 更改model表中的引用(例如删除冗余模型“B”和“C”,留下模型“A”

  2. 现在所有users引用models“B”或“C”都需要手动更改为引用model“A”

更改 amake更加困难,因为所有models都必须移动到剩余的makeuser表更新等。

是否有工具可以使这个简单,也许是图形化的?

0 投票
1 回答
22454 浏览

django - modelform:覆盖清洁方法

关于模型表单上的 clean 方法,我有两个问题。这是我的例子:

  1. 我应该总是调用标准清洁方法吗?

    /li>
  2. 我应该总是返回cleaned_data 变量吗?

    /li>