问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
100 浏览

.net - 单实例存储层

我有一个数据存储要求,这是单实例存储和重复数据删除的绝佳候选者。

任何人都可以建议任何处理 SIS 和重复数据删除的 .Net 兼容库或系统,无论是使用 SQL Server 作为实际后端还是它自己的高性能存储引擎?人们使用这种引擎有什么经验,有什么需要注意的坑吗?

问候

0 投票
1 回答
277 浏览

sql-server - T-SQL 查询结果不如预期的重复数据删除

我试图获取所有记录,并且 Id 字段存在不止一次,问题是我的查询没有返回任何内容,我不知道为什么!?这是我知道的唯一方法。

更多信息:

  • 最多有 8 个相同的订单号
  • 每组都按 ProcessOrder 分组,我需要这些中的最低值,但仅适用于 Dupes
  • 其余数据可能不同,也可能相同,但有所不同。
  • 数据包含三个ID,都是骗子:

    1.客户编号

    2.公司客户编号

    3.订单号

这是我的代码:

任何帮助都非常感谢!

0 投票
2 回答
1462 浏览

php - 从 HTML 中抓取唯一的图像 URL

使用 PHP 卷曲网页(用户输入的某些 URL,假设它是有效的)。示例:http ://www.youtube.com/watch?v=Hovbx6rvBaA

我需要解析 HTML 并提取所有看起来像图像的去重 URL。不仅是 中的那些,而且该页面上以 等img src=""结尾的任何 URL 。jpe?g|bmp|gif|png(换句话说,我不想解析 DOM,但想使用 RegEx)。

然后我计划卷曲 URL 以获取它们的宽度和高度信息,并确保它们确实是图像,所以不要担心与安全相关的东西。

0 投票
1 回答
303 浏览

database - 帮助规范化数据库的建议和工具

我有 7 个 MySQL 表,其中包含大约 17000 行中的部分重叠和冗余数据。所有表格都包含学校的名称和地址。有时同一所学校在一个名称略有不同的表中重复,有时同一学校出现在多个表中,同样,其名称或地址略有不同。

我的任务是创建一个带有 id、name 和 town/city id 字段的表,其中包含 7 个表中的数据。对于带有 id 和 name 字段的城镇,将有一个单独的表格。

这很复杂,因为原始表没有单独的城市字段,它必须从具有完全不同格式数据的地址字段中提取。

我意识到这大部分都必须手动完成,我已经硬化了我的灵魂,我已经准备好应对这将带给我的人间地狱。我的问题是:

  • 你将如何开始这样的任务?什么是尽可能多地自动化它的智能策略?
  • 有没有可用的工具可以使这更快?像可以比较字符串,确定它们的“相似性”并建议可能的重复的东西?

谢谢!

0 投票
3 回答
1850 浏览

database - 如何存储双向关系

我正在编写一些代码来在数据库中查找重复的客户详细信息。我将使用 Levenshtein 距离。

但是,我不确定如何存储关系。我一直在使用数据库,但从未遇到过这种情况,我想知道是否有人可以为我指明正确的方向。

令我困惑的是如何存储关系的双向性质。

我已经开始在下面放置一些示例,但想知道是否有存储此类数据的最佳实践,

示例数据

身份证、地址

001, 5 Main Street
002, 5 Main St.
003, 5 Main Str
004, 6 High Street
005, 7 Low Street
006, 7 Low St

建议一

customer_id1、customer_id2、relationship_strength
001、002、0.74
001、003、0.77
002、003、0.76
005、006、0.77

对这种方法不满意,因为它有点推断 customer_id1 和 customer_id2 之间的单向关系。当然,除非我以两种方式都包含所有关系,但这会使处理时间和表格大小加倍。

例如需要包括:002、001、0.74

建议二

客户 ID、分组
ID
001、1
002、1
003、1
005、2 006、2

0 投票
1 回答
672 浏览

sql - postgresql:查找包含不区分大小写的字符串重复的行的ID

我想选择然后删除表中具有不区分大小写重复项的条目列表。

换句话说,这些行是唯一的......但是如果您忽略大小写因素,它们就不是唯一的。他们在我没看的时候进来了。

那么如何针对该列进行选择以找到我应该删除的 id?(我可以删除两个重复项)。

简单的示例列结构:

0 投票
2 回答
383 浏览

iphone - 基于特定键对 NSDictionaries 的 NSArray 进行重复数据删除

我正在尝试根据字典中的特定键对 NSDictionaries 的 NSArray 进行重复数据删除。我所拥有的看起来像这样:

请注意如何有两个同名但 ID 不同的员工。我想做的只是取回一个只有 person1 和 person2 的新数组,因为 person3 具有相同的数据——我只是不关心这个特定问题中的“employeeID”值。

有任何想法吗?谢谢!

-马特

0 投票
5 回答
9307 浏览

java - 如何对对象列表进行重复数据删除?

一个Rec对象有一个名为的成员变量tag,它是一个String.

如果我有一个Listof Recs,我如何根据tag成员变量对列表进行重复数据删除?

我只需要确保每个值List只包含一个。Rectag

类似于以下内容,但我不确定保持跟踪计数等的最佳算法是什么:

0 投票
3 回答
485 浏览

tsql - SQL Server 2008 重复数据删除

长话短说,我接手了一个项目,数据库中的一个表非常需要重复数据删除。该表如下所示:

重复存在于具有相同 request_id 和 supply_id 的记录中。我想找到一种消除此表重复数据的最佳实践方法。

[编辑]
@Kirk_Broadhurst,感谢您的提问。由于supply_req_id 没有在其他任何地方引用,我会回答说保留第一个,删除任何后续事件。

节日快乐

0 投票
3 回答
1491 浏览

windows - 添加/删除程序列表(VBScript)的重复数据删除和过滤

该脚本有效并告诉我程序文件中安装了什么。

两个问题

重复行

IE

AVG 2011 版本:10.0.1204

AVG 2011 版本:10.0.1204 安装时间:27/01/2011

我不想包含关键字“更新”、“修补程序”、“Java”的行,任何 VB 专家都可以帮助解决这个脚本中需要什么额外的内容吗?