问题标签 [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1808 浏览

database - 如何在数据库中存储清理后的原始数据?

原始数据存储在数据库(多个表)中。它需要手动检查和纠正。检查的数据也应与原始数据一起存储在数据库中。在这种情况下,创建两个单独的数据库(例如 raw_data 和 checked_data)会是个好主意吗?还是应该只有一个数据库?谢谢

0 投票
1 回答
291 浏览

database - 数据清洗:用户输入数据库数据工具

我们有一个包含一些冗余、错误数据的数据库。例如,一些文章的名称有大写小写的区别,其他的有口音问题,还有一些缺少字母等等。这个想法是合并实际上相同的数据库记录。

是否有很好的工具可以轻松清理数据库,理想情况下这不会自动完成,但需要用户确认

0 投票
2 回答
124 浏览

php - 正则表达式替换数据中的字符

我正在尝试清理一些特殊字符的垃圾数据(允许一些),但有些仍然可以通过。我之前发现了一个正则表达式片段,但没有删除一些字符,比如星号。

第一部分尝试清除原始文本中不是正常标点符号或字母数字的任何内容。然后,我将标题拆分为一个数组并寻找一个空格。我想要做的是创建一个至少 15 个字符长的标题,并在空格处截断(保持整个单词完整)而不在标点符号处停止。这是我遇到麻烦的部分。

例如,当第一个标题甚至不应该有's 时,某些标题仍然显示为*****************or ,并且该部分应该是。** HOW TO MAKE $$$$$$ BLOGGING ***HOW TO MAKE...

0 投票
6 回答
4754 浏览

python - Python 或 awk/sed 用于清理数据

我使用 R 进行数据分析,对此我非常满意。但是,清理数据可能会更容易一些。我正在考虑学习另一种适合这项任务的语言。具体来说,我正在寻找一种工具来获取原始数据,删除不必要的变量或观察结果,并将其格式化以便在 R 中轻松加载。内容主要是数字和字符串数据,而不是多行文本。

我正在考虑 awk/sed 组合与 Python。(我认识到 Perl 是另一种选择,但是,如果我要学习另一种完整的语言,Python 似乎是一个更好、更可扩展的选择。)

sed/awk 的优点是学习起来会更快。缺点是这种组合不如 Python 那样可扩展。确实,如果我学习 Python,我可能会想象一些“任务蠕变”,这很好,但不是我的目标。

我的另一个考虑是应用于大型数据集。据我了解,awk/sed 逐行操作,而 Python 通常会将所有数据拉入内存。这可能是 sed/awk 的另一个优势。

还有其他我想念的问题吗?您可以提供的任何建议将不胜感激。(我为 R 用户添加了 R 标签,以提供他们的清洁建议。)

0 投票
1 回答
784 浏览

python - 在 SQL/MySQL/PostgreSQL 表上执行高级数据清理和格式化的最佳语言/技术是什么?

我们在 Visual FoxPro 中有一堆实用程序脚本,我们用它们来交互式地清理/格式化数据。我们想开始迁移此代码以利用其他数据库平台,如 MySQL 或 SQLite。

例如,我们运行了一个脚本,它将名称和/或地址行转换为正确的大写/小写。此代码遍历整个表并分析/修复每一行。还有其他一些事情,比如解析和标准化地址,甚至重复检测......

我们正在考虑将代码迁移到 Python,并可能使用 SQLAlchemy 之类的东西作为“中间人”。

在 Visual FoxPro 中,数据库/表是集成的,因此我们可以打开表并运行命令。MySQL 的不同之处在于我们需要从中提取数据,然后处理提取的数据,然后更新表。

最好的方法是什么?

我看到了几种可能性:

1)提取要处理的整个数据集,比如所有地址字段,如果这是我们要处理的内容,然后将其全部更新并全部写回......

2)以块的形式提取数据集,以免潜在地消耗大量系统内存......然后更新并写回

3) 生成 SQL 代码,也许在 SQLAlchemy 之类的工具的帮助下,被发送到服务器并由服务器执行......

4)???还有什么我没有想到的吗?

0 投票
2 回答
1041 浏览

mongodb - 数据仓库中的分段步骤?

人们通常如何在数据仓库中执行暂存步骤?

我必须做类似的任务,我不确定使用 NoSQL 数据库是否是数据集成的好选择,以及执行数据清理和清理是否容易和高效

有人在这方面做过一些工作吗?

请告诉我

为一个通用问题道歉,但没有找到比 SO 更好的地方来提出这样的问题

谢谢

0 投票
1 回答
172 浏览

in-memory-database - 清理内存数据库

我将 Spring Batch 与 HSQLDB 内存数据库一起用于 Spring Batch 元数据。我的应用程序需要连续运行,所以这个数据库对我的记忆有问题。我需要一种定期清洁它的方法。我已经考虑过使用根据条件(旧数据)删除数据的存储过程。此过程由使用 Spring StoredProcedure 类的专用线程定期调用。

如果您有其他解决方案,我很乐意。

谢谢

0 投票
2 回答
2684 浏览

informatica - 此列允许的大于指定精度的 informatica 值

我尝试使用 Informatica 中的一对一映射直接映射加载与表 A 重复的表 ADuplicate。

但我收到以下错误:“此列允许的值大于指定精度”

我注意到对于两个表中的编号(15)的 C4 列,在加载时存在问题。

加载错误的数据是 200000300123 和 -1000000000000000000000000000000000000000000

我的疑问是:

  1. 此值在相同精度的源中可用。为什么不进入目标?
  2. 我将目标列 C4 更改为数字字段,我可以使用 TOAD 手动插入此值,但为什么我不能使用 Informatica 做同样的事情?

请帮帮我。

提前致谢

山木甘

0 投票
0 回答
2117 浏览

php - 在 PHP/MySQL 中的 LOAD DATA INFILE 期间修剪 CSV 字段中的空格、CR、LF 的最佳方法?

大约有 4500 个关于 LOAD DATA INFILE 的问题被问到,但我找不到能解决我的具体问题的问题。

我有用户将 CSV 文件上传到 MySQL 数据库(我在后端使用 LOAD DATA INFILE 脚本),有时这些字段有需要清除的愚蠢字符......特别是空格、CR 和 LF。

这是 LOAD 查询:

代码工作得很好,我要做的就是清理可能包含垃圾字符的传入字段。我相信我可以通过使用 REPLACE 来简单地在 SET 行中进行清理......这是真的吗?

我的另一个想法是在后续查询中处理这个问题:

所以我的问题有四个:

  1. 如果找不到任何垃圾字符,它会破坏输入吗?
  2. 如果我也想修剪空间怎么办?
  3. 如果只有'\r',它会被跳过或失败吗?
  4. 有没有更好的方法以某种方式使用正则表达式?

谢谢!!

0 投票
1 回答
3883 浏览

csv - 有哪些好的数据清理工具?

我正在解析大量复杂文件(主要是 CSV 文件,但有些不是),我需要将它们结构化/解析成一些标准格式。这不仅涉及按行清理数据,还涉及一些简单的基于单个单元格的逻辑。我想要一个非程序员也可以使用的工具,这样业务团队成员就可以编写简单的拖放逻辑而不占用工程时间。到目前为止,我已经看过Google RefineData wrangler,最后一个看起来很棒。还有其他这样的工具吗?