“data-cleaning”的相关标签问题

0 投票

2 回答

1063 浏览

c# - 从数据库中清理数据

我在我的项目中使用 ORM telerik 开放访问。我可以使用它来创建数据并将其添加到我的数据库中。

现在我想从我的数据库中清除所有数据。我可以通过从每个表中删除数据来做到这一点，但这需要很长的代码。我有谷歌如何使用 DBContext 清理它，但一无所获。还有另一种清理数据库但不循环调用数据库中每个表的删除函数的方法吗？

c#telerik-open-access data-cleaning

2013-09-12T03:56:37.877

0 投票

4 回答

3074 浏览

sql - 数据清理 - 如何确定哪些名称拼写错误或相同但略有不同？

我们有包含公司名称和数字主键标识的表。我们正在清理数据，我们发现名称列中充满了代表同一家公司的相似名称。

例如 BA 和 Ba 或 GTC Ltd 和 GTC Limited。

无论如何使用 SQL 服务器，我们可以获得具有相似名称和 ID 列表的所有项目的计数和摘要。我想知道是否有某种相似性比较，我们可以为 etc 设置一个阈值

我们需要向客户提供一个看起来需要合并的名称列表。

sql sql-server data-analysis data-cleaning

2013-09-16T10:02:45.403

0 投票

1 回答

452 浏览

r - 如何使用 R 在文件中查找格式错误的行和字段，该文件太大而无法读入 RAM

我有一个文件，它比我的计算机上的总 RAM 大大约 10 倍。我试图将它读入一个 R 对象，让我查看它并提取更易于管理的块。我尝试了各种方法来解决这个问题，但都遇到了问题——不同的问题——每种方法。我有一个固定宽度格式的文件副本，另一个是 CSV 文件。我相信这些文件在其他方面是相同的。我已经能够读取前 5000 行，并且对于固定宽度文件中的每一列都有一个暂定的字段宽度，并且对于两个文件的每一列都有一个暂定的数据类。在这一点上，我不是在问如何实现我的总体目标。相反，我想排除（或证明）数据的畸形是我错误的根源。如果我阅读了整个文件，我会知道如何做到这一点。事实上，我没有。

所以这是我的问题：在 R 中有没有一种方法可以逐行读取固定宽度或 CSV 数据，而无需将整个文件读入内存，并且：对于 CSV，请检查： • 字段数是否始终相同，并返回不存在的行号；• 如果每个字段中的数据与列类一致，则返回不符合的行号和列号或名称

对于固定宽度，检查： • 字符数是否始终相同，否则返回行号；• 每个字段中的数据是否与列类一致；如果不是，则返回行号和字段中第一个字符的编号，或者列号，或者列名；

最后，对于这两种情况，我希望该方法告诉我它总共检查了多少行（以确保它到达文件的末尾），并且我想要一种按行号提取任意行副本的方法，这样我就可以查看它们（同样无需将整个文件读入内存）。

在固定宽度和 CSV 情况下，对列类的检查必须对某些字段或字符不存在或格式错误具有鲁棒性，即，它仍然应该告诉我有关行的合理信息，并且仍然继续查看在下一行。

也许有一个包或功能可以做到这一点？这似乎是一个相当标准的数据清理任务，除了大文件问题。

任何帮助将不胜感激。

真诚的，安德鲁

r csv large-files fixed-width data-cleaning

2013-09-29T19:45:09.143

0 投票

2 回答

81 浏览

php - 通过 PHP 从文本中仅删除单个换行符

我正在从 Web 源中获取数据，该源返回的数据通常格式不正确。我想清理文本，它会像这样返回：

我想去除单个换行符，但保留双换行符。如何在 PHP 中做到这一点？理想情况下，字符串最终会如下所示：

我已经尝试过preg_replace( "/\r|\n/", "", $string);，但这会删除双换行符和单个换行符。

php regex validation text data-cleaning

2013-10-01T18:19:12.457

0 投票

3 回答

590 浏览

r - 如何删除时间序列数据中缺少测量值的主题？

我有如下数据：

以不同的开始和结束年份在几年内测量科目。受试者也被测量了不同的次数。我想删除在开始和结束测量年份之间不是每年都测量的主题。因此，在上述数据中，我希望删除主题 3，因为他们错过了 2009 年的测量。

我想过做一个 for 循环，在其中我得到Year每个 unique的变量的最大值和最小值ID。然后，我将每个玩家的最大值和最小值之差加 1。然后我计算每个唯一ID身份出现在数据中的次数，并检查它们是否相等。这应该可行，但我觉得必须有一种快速、更有效的方法来做到这一点。

r time-series data-cleaning

2013-10-23T21:29:13.677

0 投票

1 回答

1420 浏览

powershell - 从 CSV 中去除额外的文本限定符 - 第 2 部分

对于第 1 部分，请参阅此 SO 帖子

我有一个 CSV，其中某些字段由"符号分隔为 TextQualifier。

例如，请参见下文。请注意，每个整数（例如 1、2、3 等）都应该是一个字符串。合格的字符串被"符号包围。

1,2,3,"qualifiedString1",4,5,6,7,8,9,10,11,12,13,14,15,16,"qualifiedString2""

请注意最后一个限定字符串如何将"符号作为字符串的一部分。

用户 @mjolinor 建议使用此 powershell 脚本，它可以修复上述情况，但不能修复下面的“第 2 部分”情况。

这是问题的第 2 部分。我需要一个解决方案： 额外的"符号可以随机出现在字符串中。这是另一个例子：

1,2,3,"qualifiedString1",4,5,6,7,8,9,10,11,12,13,14,15,16,"qualifiedS"tring2"

您能否提出一种优雅的方法来自动清理 CSV 以消除冗余"限定符？

powershell csv syntax data-cleaning

2013-10-29T20:11:54.030

0 投票

2 回答

885 浏览

python - 使用未转义的换行符清理制表符分隔的文件

我有一个制表符分隔的文件，其中一列偶尔有没有被转义的换行符（用引号括起来）：

我知道这可能是不可能的，但这些坏的换行符只出现在一个字段（第 10 列）中。我对 R（首选）或 python 中的解决方案感兴趣。

我的想法是引入一个正则表达式，在 10 个且只有 10 个制表符之后寻找换行符。我首先使用readLines并尝试删除出现在空格+单词末尾的所有换行符：

但似乎很难扭转readLines. 我应该做什么？

编辑：有时会出现两个换行符（即用户在评论字段中的段落之间放置了一个空行。下面是一个示例（所需的结果是应该将其制成单行）

python regex r data-cleaning

2013-10-30T06:04:06.230

0 投票

2 回答

1457 浏览

sql-server - 如何从“姓氏”列中删除标题和后缀？

谁能告诉我以下场景是否可以在 SQL Server 中实现？

场景：在表中有一个“姓氏”列，其值如下：

史密斯医学博士
乔治医学博士
史密斯医学博士有限责任公司
史密斯JR MD
史密斯三世医学博士 PA
史密斯，医学博士

换句话说，“姓氏”有很多标题或后缀。我想使用 SQL 清理这些数据。目前，我正在多个视图中执行此操作，例如，首先仅删除“MD”，然后在下一个视图中删除“LLC”或“JR”等等。

相反，我可以将所有这些可能的后缀/标题转储到一个表中，除了姓氏，并再次检查该表的姓氏，如果在“姓氏”的末尾找到该字符串，则将其从该列中删除？

就像是：

然后再次查看代码表删除整个字符串。例子：

代码表将有 2 列：

删除姓氏的 MD 并将清理后的数据转储到单独的表中。因此，我可以使用该新表中的数据进行进一步处理。

sql-server tsql data-cleaning

2013-11-13T04:27:27.323

0 投票

1 回答

1133 浏览

excel - 如何在不丢失文本数据且不使用公式的情况下合并多个单元格？

从我每天收到的电子邮件中导入数据时，我必须检查并清理一列，该列具有如下所示的行集。我想知道的是如何将 B 列的数据合并到第 1 行，这样我就可以删除现在空的第 2 行和第 3 行。我已经看到了连接公式等，但这需要保留数据。一旦我清理了这些数据，它就会被移到另一张纸上。

谢谢您的帮助。

excel merge excel-2010 data-cleaning

2013-11-14T22:06:48.300

0 投票

1 回答

1570 浏览

r - R计算正确响应的比例作为两个因素的函数

我试图根据三个因素（组、声音和语言）计算每个参与者的正确响应比例。我的数据框如下所示：

“组”有 3 个级别：adv、int 和 beg。“声音”有 3 个级别：a、e、i。“Lang”有 2 个级别：in、sp。“1”表示正确响应，“0”表示不正确响应。我想将每个参与者的“1”的比例（即正确百分比）作为新数据框中的新列。我想要的信息类型示例：参与者 advf03 对“sp”中的“a”的正确率为 53%。

以下是我的数据中的 50 个观察结果：

这是我到目前为止所拥有的：

但这似乎并没有给我正确的比例。我知道我需要减少数据，这样我就没有太多的观察结果（即每个参与者的每种语言的每种声音都有 1 个值，但我不知道这样做的正确步骤。

r dataframe data-cleaning

2013-12-05T19:05:55.090

问题标签 [data-cleaning]

Reference