问题标签 [deduplication]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - 单实例存储层
我有一个数据存储要求,这是单实例存储和重复数据删除的绝佳候选者。
任何人都可以建议任何处理 SIS 和重复数据删除的 .Net 兼容库或系统,无论是使用 SQL Server 作为实际后端还是它自己的高性能存储引擎?人们使用这种引擎有什么经验,有什么需要注意的坑吗?
问候
哞
sql-server - T-SQL 查询结果不如预期的重复数据删除
我试图获取所有记录,并且 Id 字段存在不止一次,问题是我的查询没有返回任何内容,我不知道为什么!?这是我知道的唯一方法。
更多信息:
- 最多有 8 个相同的订单号
- 每组都按 ProcessOrder 分组,我需要这些中的最低值,但仅适用于 Dupes
- 其余数据可能不同,也可能相同,但有所不同。
数据包含三个ID,都是骗子:
1.客户编号
2.公司客户编号
3.订单号
这是我的代码:
任何帮助都非常感谢!
php - 从 HTML 中抓取唯一的图像 URL
使用 PHP 卷曲网页(用户输入的某些 URL,假设它是有效的)。示例:http ://www.youtube.com/watch?v=Hovbx6rvBaA
我需要解析 HTML 并提取所有看起来像图像的去重 URL。不仅是 中的那些,而且该页面上以 等img src=""
结尾的任何 URL 。jpe?g|bmp|gif|png
(换句话说,我不想解析 DOM,但想使用 RegEx)。
然后我计划卷曲 URL 以获取它们的宽度和高度信息,并确保它们确实是图像,所以不要担心与安全相关的东西。
database - 帮助规范化数据库的建议和工具
我有 7 个 MySQL 表,其中包含大约 17000 行中的部分重叠和冗余数据。所有表格都包含学校的名称和地址。有时同一所学校在一个名称略有不同的表中重复,有时同一学校出现在多个表中,同样,其名称或地址略有不同。
我的任务是创建一个带有 id、name 和 town/city id 字段的表,其中包含 7 个表中的数据。对于带有 id 和 name 字段的城镇,将有一个单独的表格。
这很复杂,因为原始表没有单独的城市字段,它必须从具有完全不同格式数据的地址字段中提取。
我意识到这大部分都必须手动完成,我已经硬化了我的灵魂,我已经准备好应对这将带给我的人间地狱。我的问题是:
- 你将如何开始这样的任务?什么是尽可能多地自动化它的智能策略?
- 有没有可用的工具可以使这更快?像可以比较字符串,确定它们的“相似性”并建议可能的重复的东西?
谢谢!
database - 如何存储双向关系
我正在编写一些代码来在数据库中查找重复的客户详细信息。我将使用 Levenshtein 距离。
但是,我不确定如何存储关系。我一直在使用数据库,但从未遇到过这种情况,我想知道是否有人可以为我指明正确的方向。
令我困惑的是如何存储关系的双向性质。
我已经开始在下面放置一些示例,但想知道是否有存储此类数据的最佳实践,
示例数据
身份证、地址
001, 5 Main Street
002, 5 Main St.
003, 5 Main Str
004, 6 High Street
005, 7 Low Street
006, 7 Low St
建议一
customer_id1、customer_id2、relationship_strength
001、002、0.74
001、003、0.77
002、003、0.76
005、006、0.77
对这种方法不满意,因为它有点推断 customer_id1 和 customer_id2 之间的单向关系。当然,除非我以两种方式都包含所有关系,但这会使处理时间和表格大小加倍。
例如需要包括:002、001、0.74
建议二
客户 ID、分组
ID
001、1
002、1
003、1
005、2 006、2
sql - postgresql:查找包含不区分大小写的字符串重复的行的ID
我想选择然后删除表中具有不区分大小写重复项的条目列表。
换句话说,这些行是唯一的......但是如果您忽略大小写因素,它们就不是唯一的。他们在我没看的时候进来了。
那么如何针对该列进行选择以找到我应该删除的 id?(我可以删除两个重复项)。
简单的示例列结构:
iphone - 基于特定键对 NSDictionaries 的 NSArray 进行重复数据删除
我正在尝试根据字典中的特定键对 NSDictionaries 的 NSArray 进行重复数据删除。我所拥有的看起来像这样:
请注意如何有两个同名但 ID 不同的员工。我想做的只是取回一个只有 person1 和 person2 的新数组,因为 person3 具有相同的数据——我只是不关心这个特定问题中的“employeeID”值。
有任何想法吗?谢谢!
-马特
java - 如何对对象列表进行重复数据删除?
一个Rec
对象有一个名为的成员变量tag
,它是一个String
.
如果我有一个List
of Rec
s,我如何根据tag
成员变量对列表进行重复数据删除?
我只需要确保每个值List
只包含一个。Rec
tag
类似于以下内容,但我不确定保持跟踪计数等的最佳算法是什么:
tsql - SQL Server 2008 重复数据删除
长话短说,我接手了一个项目,数据库中的一个表非常需要重复数据删除。该表如下所示:
重复存在于具有相同 request_id 和 supply_id 的记录中。我想找到一种消除此表重复数据的最佳实践方法。
[编辑]
@Kirk_Broadhurst,感谢您的提问。由于supply_req_id 没有在其他任何地方引用,我会回答说保留第一个,删除任何后续事件。
节日快乐
windows - 添加/删除程序列表(VBScript)的重复数据删除和过滤
该脚本有效并告诉我程序文件中安装了什么。
两个问题
重复行
IE
AVG 2011 版本:10.0.1204
AVG 2011 版本:10.0.1204 安装时间:27/01/2011
和
我不想包含关键字“更新”、“修补程序”、“Java”的行,任何 VB 专家都可以帮助解决这个脚本中需要什么额外的内容吗?