问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 熊猫中的多列分解
pandasfactorize
函数将系列中的每个唯一值分配给一个从 0 开始的顺序索引,并计算每个系列条目所属的索引。
我想pandas.factorize
在多列上完成相当于:
也就是说,我想确定数据帧的几列中每个唯一的值元组,为每个值分配一个顺序索引,并计算数据帧中的每一行属于哪个索引。
Factorize
仅适用于单列。pandas 中是否有多列等效函数?
python - Python - 清理数据以运行先验算法
我有一组文章中使用的所有单词的主列表,现在我正在尝试计算每篇文章中主列表中每个单词的出现次数。然后我将尝试在数据上建立一些关联规则。例如,我的数据可能如下所示:
我需要将我的数据转换成这种格式:
我正在努力进行这种转换,我一直在玩 nltk,但我不知道如何计算其中包含不存在的单词的计数。任何帮助将不胜感激!
r - 在 R 中合并跨国面板数据库
考虑到两个困难,如何合并跨国数据库:
- 并非所有数据库都有国家代码变量
- 某些国家/地区的名称略有不同(例如,老挝为老挝人民民主共和国,韩国为韩国共和国)
这是社会科学中如此常见的任务,但除了手动匹配国名之外,我还没有想到一种有效的方法来做到这一点。
user-interface - User Friendly Data Cleaning
I feel kind of silly asking this, but I need a GUI tool for data cleaning.
An executive has offered to take over some of my data cleaning work if I can simplify the tasks. I've been using R to clean the data and Awk to split it, which is beyond his technical ability or interest. I offered to write a Python script that does everything in one shot, he'd rather have a GUI.
All of our data is in CSV files, most of which have ~10 columns and < 2,000 rows. The cleaning involves removing some rows, adding a few others, and splitting them up into CSV files by column values (date, in this case). The output is usually a dozen CSV files of "clean" data.
Are there any user-friendly tools for CSV editing & splitting? Excel destroys our data, so that's out. I'm looking at Google Refine, I think that could be a good option but I'm not sure that it will split the data.
Has anyone else faced the issue of needing user-friendly tools for data cleaning? I've done a few searches for data cleaning tools but haven't turned up anything.
java - 您将如何从跟踪查询字符串变量中清理 URL?
我有大约 1000 个 URL,任务是计算它们的出现次数并打印最高频率。当单篇文章有多个 URL 时会出现此问题。下面的例子:
所有这些都指向同一篇文章,但是,它们的不同之处在于一些第三方跟踪变量。我可以使用 RegExp 消除追随者,但可能有无限的变体。另外,我不能删除整个查询字符串,因为它可能包含真正的变量(即show.php?p=12
)
问题: 是否有这些变量的完整列表?你过去有没有用更好的方法做到这一点?
excel - 如何在excel中呈现/组织单元格中包含的重复数据?
是否有更好的方法来呈现/组织 Excel 中单元格中包含的重复数据?我在下面提供了一组示例数据(出于保密原因,我无法显示我的实际记录),以便你们可以可视化数据。
国家 | 类型 | 公司 | 部门 | 项目 | 货币 | 数量
美国 | 餐厅 | 鲍勃的烧烤 | 卫生 | 每月卫生 | 记录数据库 | 美元 | 100
美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工时间表美元 | 203
美国 | 餐厅 | 鲍勃的烧烤 | 人力资源 | 员工电子邮件门户 | 美元 | 259
美国 | 制造 | 达夫汽车 | 研发| 库存系统| 美元 | 234
美国 | 制造 | 达夫汽车 | 销售 | 库存系统 | 美元 | 654
中国 | 制造 | 伟华电子| 研发| 库存系统 | 人民币 | 102
中国 | 政府 | 旅游系 | 广告 | 广告牌设计和部署门户网站 | 人民币 | 2044
如您所见,它包含大量重复数据,例如“国家”和“类型”。它可能看起来井井有条,但随着数据的增加,它看起来很混乱。在过去的几天里,我已经彻底考虑了这一点,但我仍然想不出一种方法来组织它,使它看起来很漂亮。
我已经尝试过 Excel 的筛选功能、排序和其他功能,但我仍然认为它看起来很杂乱。有什么建议么?谢谢!
python - python列表中的Writerrows - 我如何删除括号和撇号
我有以下 python 代码,它通过我的 csv 文件,删除所有百分号 (%),并将文件重写回新的 csv 文件。
在我运行代码之前,数据如下所示:
| 第 1 栏 | 第 2 栏 | 第 3 栏 | 第 4 栏 | 等|
现在,它看起来像这样:
| ['第 1 列' | '第 2 列' | '第 3 列' | '第 4 列' | '等'] |
我不希望我的数据包含由 python 的列表功能创建的括号/撇号。恐怕它要么a)在上传时包含在我的数据库中,要么b)将导入轰炸到mySQL数据库。有什么办法吗?
在此先感谢,丹
这是我的代码:
java - 使用 Hive 清理大数据
我正在使用 Hive 来查询我拥有的数据。问题是,这些数据需要清理,而且对于我来说太大了,无法在我的计算机上尝试处理它(因此使用 Hadoop 和 Hive)。有没有办法让我用 Hive 做到这一点?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式。
谢谢
mysql - 清理已经规范化的 mySQL 数据库的工具?
我有一个 MySQL 数据库,我需要清理其中的数据。
我正在寻找是否有工具可以帮助一次清理规范化表。
例子:
User
表包括代码make
和model
Make
表有我想巩固的Model
表有我想整合的模型
手动执行此操作是一场噩梦:
更改
model
表中的引用(例如删除冗余模型“B”和“C”,留下模型“A”现在所有
users
引用models
“B”或“C”都需要手动更改为引用model
“A”
更改 amake
更加困难,因为所有models
都必须移动到剩余的make
,user
表更新等。
是否有工具可以使这个简单,也许是图形化的?
django - modelform:覆盖清洁方法
关于模型表单上的 clean 方法,我有两个问题。这是我的例子:
我应该总是调用标准清洁方法吗?
/li>我应该总是返回cleaned_data 变量吗?
/li>