问题标签 [duplicate-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
11 回答
13639 浏览

algorithm - 如何检测重复数据?

我有一个简单的联系人数据库,但我遇到了用户输入重复数据的问题。我已经实现了一个简单的数据比较,但不幸的是输入的重复数据并不完全相同。例如,姓名拼写错误,或者一个人会输入“Bill Smith”,而另一个人会为同一个人输入“William Smith”。

那么是否有某种算法可以给出一个条目与另一个条目的相似程度的百分比?

0 投票
13 回答
772960 浏览

sql - 如何在 Oracle 的表中查找重复值?

什么是最简单的 SQL 语句,它将返回给定列的重复值以及它们在 Oracle 数据库表中出现的次数?

例如:我有一个JOBS带有列的表JOB_NUMBER。我怎样才能知道我是否有任何重复JOB_NUMBER的 s,以及它们被重复了多少次?

0 投票
2 回答
358 浏览

sql - 数据库重复值问题(基于先前值过滤)

本周早些时候,我问了一个关于在运行时按顺序过滤掉重复值的问题。有一些很好的答案,但我要处理的数据量很慢而且不可行。

目前在我们的数据库中,事件值未被过滤。导致重复的数据值(具有不同的时间戳)。我们需要在运行时处理这些数据,并且在数据库级别处理这些数据的时间成本很高(并且不能将其拉入代码中,因为它在存储过程中被大量使用)导致查询时间长。我们需要一个我们可以查询的数据结构,它过滤掉了这个数据存储,以便在运行时不需要额外的过滤。

目前在我们的数据库中

  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '1', '2008-05-08 04:03:47.000'
  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '0', '2008-05-08 10:02:08.000'
  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '0', '2008-05-09 10:03:24.000' (需要删除) **
  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '1', '2008-05-10 04:05:05.000'

我们需要的

  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '1', '2008-05-08 04:03:47.000'
  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '0', '2008-05-08 10:02:08.000'
  • 'F07331E4-26EC-41B6-BEC5-002AACA58337', '1', '2008-05-10 04:51:05.000'

这似乎微不足道,但我们的问题是我们从无线设备获取这些数据,导致数据包乱序,并且我们的网关是多线程的,因此我们无法保证我们获得的值是有序的。可能会出现 4 秒前的“1”和 2 秒前的“0”,但我们已经处理了“1”,因为它是第一个进入的。我们一直在思考如何实现这一点。我们无法将数据与数据库中的最新值进行比较,因为最新的值实际上可能还没有进来,所以要丢弃这些数据,我们会被搞砸,我们的序列可能会完全关闭。所以目前我们存储每个传入的值,并且数据库根据时间自行洗牌。但是单元可以发送 1,1,1,0 并且它是有效的,因为事件仍然处于活动状态,

有任何想法吗?

询问您是否需要任何进一步的信息。

[编辑] PK 不起作用 - 问题是我们的单位实际上发送了不同的时间戳。所以PK不起作用,因为1,1,1是相同的..但是有不同的时间戳。它的类似事件在时间 1 发生,事件在时间 2 仍然发生,它把我们两个都发回......相同的值不同的时间。

0 投票
4 回答
884 浏览

sql - 合并 SQL 表中的联系人而不创建重复条目

我有一个只包含两列的表 - ListID 和 PersonID。当一个人在系统中与另一个人合并时,我要将“源”人的所有引用更新为对“目标”人的引用。

理想情况下,我想调用一些简单的东西

但是,如果目标人员已经存在于此表中,并且与源人员具有相同的 ListID,则会创建重复条目。如何在不创建重复条目的情况下执行此操作?(ListID,PersonID为主键)

编辑:使用多个 ListID。如果 SourcePerson 分配给 ListID 1、2 和 3,而 DestinationPerson 分配给 ListID 3 和 4,则最终结果需要有四行 - DestinationPerson 分配给 ListID 1、2、3 和 4。

0 投票
6 回答
1889 浏览

sql - 删除带有警告的重复项

我有一个带有 rowID、经度、纬度、businessName、url、标题的表。这可能看起来像:

如何删除所有重复项,但仅保留具有 URL 的副本(第一优先级),或者如果另一个没有 URL 则保留具有标题的副本(第二优先级)并删除其余部分?

0 投票
12 回答
58511 浏览

sql - 如果我停止长时间运行的查询,它会回滚吗?

一个用于循环遍历1700 万条记录以删除重复项的查询 现在已经运行了大约16 个小时,我想知道查询是否现在停止,它是否会完成删除语句,或者它是否在运行时被删除询问?事实上,如果我停止它,它会完成删除还是回滚?

我发现当我做一个

它返回的行(在执行此查询时)大约比起始行数少 5。显然服务器资源极差,这是否意味着这个过程需要 16 个小时才能找到 5 个重复项(实际上有数千个),而且这可能会运行数天?

这个查询在 2000 行测试数据上花费了 6 秒,并且在该组数据上效果很好,所以我认为完整的数据集需要 15 个小时。

有任何想法吗?

以下是查询:

0 投票
11 回答
5646 浏览

sql - 数百万行的 SQL 重复删除查询以提高性能

这是一次冒险。我从上一个问题中的循环重复查询开始,但每个循环都会遍历所有1700 万条记录这意味着它需要数周时间(仅*select count * from MyTable*使用 MSSQL 2005 运行我的服务器需要 4:30 分钟)。我从这个网站和这篇文章中得到了一些信息。

并已到达下面的查询。问题是,对于任何类型的性能,这是对 1700 万条记录运行的正确查询类型吗?如果不是,那是什么?

SQL查询:

0 投票
3 回答
398 浏览

python - 从映射列表中提取唯一项

他是一个有趣的问题,正在寻找最 Pythonic 的解决方案。假设我有一个映射列表{'id': id, 'url': url}。列表中的某些ids 是重复的,我想创建一个新列表,删除所有重复项。我想出了以下功能:

我想这是相当有效的。但是有没有“更 Pythonic”的方式?或者也许是一种更有效的方法?

0 投票
1 回答
2007 浏览

text - 如何检测具有一定模糊性的重复文本

前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。

在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。

您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?

0 投票
26 回答
336029 浏览

php - 如何从 PHP 中的数组中删除重复值

如何从 PHP 中的数组中删除重复值?