问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 返回包含错误数据的所有列 SQL Server 2005 查询
我有 15 个 SQL Server 表,每个表大约有 50 列。
其中一些列的行包含引号、逗号和制表符。
我有一个函数可以从给定列名的行中删除所有这些,但我不知道哪些列有问题。
我想要一个 SQL Server 2005 查询,它可以返回具有给定表名的坏数据的列名。
django - 如何清除/维护 django-sentry 数据库?
我正在使用 django-sentry 来跟踪网站中的错误。我的问题是数据库变得太大了。'message' 表和 'groupedmessage' 是相关的
有没有办法清除旧条目和特定消息或将哨兵表添加到 django 的管理员?
php - MySQL到PHP双引号问题
我有一个包含多个电影概要的数据库 - 这些是通过电子邮件发送给我的文本块,我将其复制粘贴到我的数据库中。我现在正试图用一个简单的 PHP 脚本将它们解析出来——而且我不断收到错误消息。我怀疑它是由于文本块中的双引号、& 和其他特殊字符造成的——那么我该如何清理呢?
这是我的代码:
我几乎总是在 SYNOPSIS 部分崩溃——因为那是文本最多的部分,因此“有问题的”字符出现次数最多。
有什么方法可以即时清理它吗?
r - 从R中的有序对象集合(列表)中删除非字母数字字符
我有一个关于从 R 中的列表中删除非字母数字字符的问题。我有一个列表将包含各种奇数字符、空格等,并希望删除它们。我通常可以使用 r 中的 tm 包删除我想要的内容。我摆弄它,但无处可去,所以认为回到列表可能是开始的地方。
名单:
预期输出
postgresql - ETL 工具或临时解决方案?
我正在设计一个数据仓库系统,原始数据源有两个:文件(十六进制格式,记录结构已知)和PostgreSQL数据库。ETL 阶段必须读取两个源(文件和数据库)的内容并组合/集成/清理它们。在此之后,将数据加载到 DW 中。
为此目的,是更好的工具(例如 Talend)还是临时解决方案(使用编程语言编写临时例程)?
php - 是否有内置的方法来清理 POST
$_POST
假设我想修剪通过 POST ( )进入我的系统的所有值,
或者,甚至应用更复杂的过滤器。
是否有一种内在的方法来做到这一点(Post也可以是一个数组数组......)
我确实有一个引导文件,我目前正在使用它array_walk_recursive
或类似的东西。
sql - 在 Oracle 中替换一列电子邮件中的多个字符
所以基本上我有一列多封电子邮件,其中一些是无效的,并且包含不允许的不同字符/回车。
以下是我如何在选择语句中查找无效电子邮件,但我不知道如何单独替换它们,例如,如果找到回车,我知道我会使用替换语句。与任何特殊字符相同。但这将涉及为每个可能的情况编写单独的查询?
基本上,我要求的是最有效的方法来遍历我的表,替换电子邮件地址中与这些案例语句之一匹配的任何字符
php - settype() 与 filter_var()
如果以下几行更好地用于确保我的代码更安全。我应该使用 filter_var 函数的 settype 函数吗?
或者
感谢您
c - 如何将一个文件拆分为两个文件以获取 40 万条记录
我正在尝试根据标签将我的输入数据文件分成两个输出文件。下面是我的代码。下面的代码仅适用于较少数量的记录,但它进入分段错误更多没有。行。
data-cleaning - 如何使用 Google Refine 将字符串值替换为指纹?
我有一列包含 100,000 多个字符串。我希望 Google Refine 用他们的指纹替换这些字符串。
我在 Google Refine 中选择了该列,并创建了一个 Text Facet。从该文本方面,我可以选择“集群”。这将向我显示集群,我假设这意味着具有相同指纹的字符串值,并允许我选择一个新单元格值,它默认为集群的第一个成员的名称。
我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实属于同一个集群,我需要它们具有相同的值。我无法连接文件,因为这会导致 Refine 处理的数据过多,尽管根据 Refine FAQ 优化了内存参数。
所以我只是在寻找一个操作,它获取列中的每个单元格,计算其指纹,并用其指纹替换列中的值。
我在 OSX 10.7 上使用 Google Refine 2.5