问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
25 浏览

java - 基于哈希的重复数据删除

我正在做一个项目,我将从用户的输入表单中获取数据(无文件处理)。为了避免重复,我想使用(固定长度或固定块)或(可变长度或可变块)。

  • 对于从小长度(一行)到大长度(比如博客)的用户输入数据,哪一种是更好的方法?

  • 我正在研究 md5(固定长度)或 sha1(可变长度),有没有更好的实现?

0 投票
0 回答
227 浏览

mysql - SQL:对规范 ID 进行重复数据删除的最快方法

我有一个有趣的 SQL 任务,尽管我会询问社区是否有人知道完成它的快速方法。我有 2 个缓慢的解决方案,但我想知道我是否错过了更快的东西。

这是任务:

给定表 A 中的记录列表,其中一列引用另一个表 B 的主键,从逻辑上讲,尽管这是一个没有外键的 MyISAM,但我们要对表 B 进行重复数据删除,并更新表 A使用表 B 中的规范去重值,然后从表 B 中删除除规范 id 记录之外的所有记录。

通过一个小例子可能更容易说明这一点。假设表 A 是人员表,表 B 是城市表。还可以说 city 表中的记录是重复的并且需要重复数据删除。假设表 B 的第 1 行和第 2 行都指的是洛杉矶。

然后在 person 表中,我们要更新 Los Angeles 中城市 id 为 2 的所有人员,使其城市 id 为 1,并从城市 id 为 2 的城市表中删除重复值。

可能有许多这样的行代表重复值,而不仅仅是 2,你明白了。现在,我正在查询 city 表中的所有城市,将它们分组为等价类,循环遍历每个等价类,在这种情况下指定规范版本,只需选择第一个,并执行 2 个查询,更新和删除:

然后

我认为可能有一种更快的方法,因为我们不在乎哪个 id 是规范的,它可能是第一个、in 或随机的,都没有关系。你能想出一种方法在 1 个 SQL 语句中完成整个工作吗?你认为最快的方法是什么?

0 投票
1 回答
85 浏览

php - 邮件重复数据删除多个用户

我目前是基于每个用户(电子邮件帐户)的重复数据删除电子邮件。我正在创建一个包含多个标头(消息 ID、主题、发件人、日期、收件人)的 sha512 哈希。之后,我将完整的电子邮件(mime 字符串)存储在一个文件中,并在 Elasticsearch 中将元数据(主题、发件人、发件人、收件人、cc ...)与“userID”字段相结合。

这在每个用户的基础上都可以正常工作,但我可以通过在全球范围内对它们进行重复数据删除来大大降低存储成本。问题是有时当 UserA 和 UserB 都收到相同的消息时,某些标头可能会不同。并且像发件人本身的标头也不同。

非常感谢任何有关如何创建它的提示。

PS 1 解决方案是保存不带标题的 MIME 文件并保存每个用户分开的标题。因此,为了获取 userA 的完整电子邮件,我将 MIME 文件与链接到 userA 的文件的标题相结合。但是这个解决方案对我来说似乎有点低效?

0 投票
2 回答
945 浏览

sql-server-2008 - 数据匹配/去重 Sql server 2008 R2

处理 MS SQL Server 2008 R2 时进行数据清理过程(重复数据删除/匹配)的选项有哪些?或者更好的是,我如何在一行的列上对匹配过程的分数进行加权?情况如下:我的数据库中有一个persons 表,其他数据库表中有关联的地址和文档?如何根据姓名、文件序列号和地址做出最佳匹配决定?据我了解,SSIS 模糊摸索不支持此功能:加权评分。

0 投票
3 回答
313 浏览

java - 如何使用 SET 类从 Type Setters & Getters 类的“Arraylist string objects”的 Arraylist 中获取唯一行

我需要您在 java 代码中的帮助,例如如何从 arraylist 中获取唯一记录,该 arraylist 是转换类 Value 对象(setter 和 getter)的多维数组。

我正在阅读一个表格并将所有记录放在arraylist 的一个ararylist 中。“表”将有整个表,每列 3 列 25 行,其中一些材料编号是唯一的,有些是重复的。我想摆脱重复的材料编号行,只获得唯一的材料行数。

感谢您的意见和帮助。

谢谢拉吉

0 投票
1 回答
665 浏览

hadoop - 使用 hadoop mapreduce 确定重复数据删除的键值对

我想使用 Hadoop Mapreduce 实现文件的重复数据删除。我计划通过在我的映射器函数中计算输入目录中存在的所有文件的 MD5 总和来做到这一点。这些 MD5 散列将是减速器的关键,因此具有相同散列的文件将转到同一个减速器。

Hadoop 中映射器的默认设置是键是行号,值是文件的内容。

我还读到如果文件很大,那么它会被分成 64 MB 的块,这是 Hadoop 中的最大块大小。

如何将键值设置为文件的名称,以便在我的映射器中计算文件的哈希?另外如何确保没有两个节点会计算同一个文件的哈希?

0 投票
2 回答
37 浏览

mysql - 使用相似行的值更新行空字段(相同的“键”)

我的问题很难在标题中解释,所以我将展示数据和目标。有一个具有以下结构的 MySQL 表:

问题是,也应该PRIMARY KEY(idCustomer, idProject)定义,但事实并非如此。结果有一些重复项(具有相同的主键)但具有不同的数据。

我可以跑ALTER IGNORE TABLE,但数据丢失可能是不可接受和不可预测的。最后,我们决定尝试用来自重复项的值填充空字段,如果它们包含数据,然后运行ALTER IGNORE TABLE​​. 这样会丢失更少的数据,并且在这种情况下是可以接受的(这比保留它要好,因为它现在处于较长时间的角度)。

问题是如何从每个重复项中填写这些字段。

0 投票
3 回答
1071 浏览

email - 电子邮件重复数据删除

是否可以通过仅使用其某些标头来对电子邮件进行重复数据删除,因为根据 RFC,它们的消息 ID 应该是唯一的?

有没有办法计算在下面的这种重复数据删除方法中遗漏 1 封电子邮件的几率(这 3 个标头的 sha512 哈希)?

// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date. $hashStr = $email['message_id']; $hashStr .= $email['subject']; $hashStr .= $email['date']; $uniqueEmailId = hash('sha512', $hashStr);

不会遗漏任何一封电子邮件是一项至关重要的任务,很可能我们不得不对数个(>2)十亿个 mime 文件进行重复数据删除。

0 投票
0 回答
227 浏览

hadoop - HBase 不使用 HDFS

我正在做一个小研究项目,我正在考虑使用 HBase。我在快速入门指南中阅读了可以使用本地文件系统设置 HBase。我正在阅读这个人的论文:http ://ro.uow.edu.au/cgi/viewcontent.cgi?article=9879&context=infopapers

这让我想知道您是否可以将 HBase 与 SDFS(来自 opendedup 项目)一起使用来快速索引到在块级别进行重复数据删除的文件系统?IE Deduup首先基于唯一键插入hbase,并在SDFS之上进行本地文件系统级别的重复数据删除。

这行得通,还是我离基地很远?

0 投票
1 回答
857 浏览

lua - 按时间戳从 LUA 表中删除重复项

几天前我在堆栈上寻求帮助插入记录以防止重复。然而,进入这些的过程很慢,它们会溜进去。

我有大约 10,000 名玩家的用户群,他们有重复的条目。我一直在尝试过滤掉这些重复项,但没有成功。堆栈上的示例对我来说没有任何效果。

这是我桌子上的剪辑

时间戳的匹配项,它们不应该被添加。

现在,我需要找出如何删除当前的重复项,这就是我尝试过的。

我希望所提供的信息清晰易懂。

谢谢!

更新

尝试 #20 ;)

还没有运气。

更新

这已经奏效

这是一个好方法吗?