问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
61 浏览

sql - 在 SQL Server 中删除具有联接的表

我是这个 DBA 的新手,我的任务是从几个表中删除重复项。我在 SQL Server 中工作。他们都有一个名为 LAST_UPD 的字段来跟踪他们的最后一次更新。所有表都连接到 TABLE1,每个用户都由 TABLE1.ALIAS_KEY 标识。连接如下。我想知道如何清除所有重复的行并保留 Table2 中的最新条目。谢谢您的帮助!

0 投票
2 回答
921 浏览

c# - 对 .pst 文件进行重复数据删除以查找唯一的电子邮件

我手头有一项(看起来像是)一项大任务。
我需要浏览多个文件夹的不同归档卷(我们说的是 TB 级数据)。每个文件夹中都有一个 .pst 文件。其中一些文件夹(以及文件)可能完全相同(文件中的名称或数据)。我希望能够一次比较两个以上的文件(如果可能的话),看看是否找到了任何重复文件。找到重复项后,我需要删除它们并保留原件,然后最终提取所有唯一的电子邮件。

我知道有些程序可以找到重复项,但我不确定他们需要在这些文件中传递什么参数,我不知道他们是否可以处理如此大量的数据。我想用 C# 或 VB 编程。我不知道应该从哪里开始。有什么建议么??

前任...

0 投票
2 回答
440 浏览

mapreduce - Couchdb中的重复数据删除/匹配?

我在 couchdb 中有文件。架构如下所示:

我假设两个用户实际上是同一个人,只要他们有

  • 电子邮件或
  • 个人博客网址或
  • 电话

相同。

我创建了 3 个视图,它们基本上将 email/blog_url/telephone 映射到 userIds,然后将 userIds 组合到同一键下的组中,例如,

我的问题:

  • 如何将 3 个不同视图的结果合并到不包含重复项的最终用户表/视图中?
  • 或者在 couchdb 中进行这种重复数据删除是否是一种好习惯?
  • 或者什么是在沙发上进行重复数据删除的好方法?

附言。在最终视图中,假设对于所有受骗者,我们只保留最小的 userId。

谢谢。

0 投票
1 回答
1564 浏览

sql - SQL Server 中导入记录的重复数据删除

我有以下 T_SQL 存储过程,它目前占用了在新导入的记录上运行所有进程到我们的后端分析套件所需的总时间的 50%。不幸的是,这些数据每次都需要导入,并且随着我们的数据库大小的增长而导致瓶颈。

基本上,我们正在尝试识别记录中的所有重复项并只保留其中一个。

我已经添加了我可以从查询执行计划中看到的所有索引,但是可能会更新整个 SP 以不同的方式运行,就像我已经设法与其他人一样。

0 投票
2 回答
174 浏览

sql - 使用我拥有的信息进行重复数据删除的最佳方法是什么?

我需要查找并删除重复文件 (.pst) 并最终获得唯一的电子邮件。目前,我正在使用 Powershell 递归地遍历文件夹以仅查找 .pst 文件,然后将特定元数据导出到 .csv 文件中。有人建议我将 .csv 导入 SQL 以进行比较(名称、文件上的日期等)。在那之后,我被困住了。

哪种语言或程序最适合获取我需要的文件并删除其余文件?我几乎在 VB.Net(可以尝试 C#)和 powershell 中工作。

0 投票
1 回答
1203 浏览

powershell - Powershell:对数组进行重复数据删除

我有一个管道分隔的平面文件,我需要根据对象对条目进行重复数据删除,具体来说文件的一部分是:

第一个字段是 ID,最后一个字段是时间戳,我想对条目进行重复数据删除,以便每个 ID 只保留最新的时间戳条目。所以,我需要的输出应该是:

我读取了文件并将条目存储在具有不同对象名称的数组中,然后我尝试了

希望一旦对日期进行排序,这里用作 -unique 的 get-unique cmdlet 将选择排序数组中重复条目的第一个或最后一个,因此取决于我将以 desc 或 asc 顺序对日期进行排序,但是它不会随机选择一个条目。

请帮助我或帮助我了解 get-unique cmdlet 的工作原理。

0 投票
2 回答
1261 浏览

java - Java中的复制算法

我在 Java 中寻找一些重复的匹配算法。我有 senario 即

我有两个表。表 1 在一个列中包含 25,000 个记录字符串,同样,表 2 包含 20,000 个记录字符串。我想检查表 1 和表 2 中的重复记录。记录类似于这种格式,例如:

表格1

约翰·沃尔特拉

布鲁斯·威利斯

表 2

伏打

布鲁斯·威利斯

寻找可以从两个不同文件中的这两个表中找到这种类型的重复字符串匹配的算法。有人能帮我介绍两个或更多可以在 Java 中执行此类查询的算法吗?

0 投票
1 回答
1077 浏览

mysql - 使用重复数据删除 SQL 插入数百万条记录

这是一个理论场景,当涉及到大型 SQL 数据库时,我不仅仅是业余爱好者......

我将如何将大约 200 万条记录插入现有数据库中的 600 万条记录(表 1 到表 2),同时使用电子邮件重复数据删除(站点 2 中可能已经存在一些订阅者,但我们不想插入那些已经存在)?

我了解如何简单地从站点 1 获取记录并将它们添加到站点 2,但是我们如何在如此大规模的情况下执行此操作,并且不会导致数据重复?任何阅读资源都会对我有帮助,因为我发现这是一场斗争。

即: 表1:site1Subscribers

site1Subscribers(subID, subName, subEmail, subDob, subRegDate, subEmailListNum, subThirdParties)

表 2:site2Subscribers

site2Subscribers(subID、subName、subEmail、subDob、subRegDate、subEmailListNum、subThirdParties)

0 投票
1 回答
4584 浏览

search - 如何检查 ElasticSearch 上的重复数据?

当存储一些文档时,它应该存储不存在的并忽略其余的(应该在应用程序级别完成,也许检查文档的 id 是否已经存在等?)

0 投票
0 回答
210 浏览

regex - 使用正则表达式删除冗余信息

我想为以下任务使用正则表达式 (.NET)。

一个文本文件包含以下几行:

正则表达式应识别除第 8 个字符(0 与 1)之外的行相同的情况,然后删除第 8 个字符为 1 的行。

输出将是:

(文本文件的其余部分保持不变)

如果其他工具或技术更可取,我很乐意了解这些。

谢谢你。