问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3695 浏览

go - 我们可以在 Go 中编写一个通用的数组/切片重复数据删除吗?

有没有办法在 go 中编写通用数组/切片重复数据删除,因为[]int我们可以有类似的东西(来自http://rosettacode.org/wiki/Remove_duplicate_elements#Go):

但是有没有办法扩展它以支持任何数组?签名如下:

我知道您可以使用该签名编写该函数,但是您实际上不能在其上使用它[]int,您需要创建一个[]interface{}将所有内容[]int放入其中,将其传递给函数然后将其取回并将其放入 a[]interface{}和遍历这个新数组并将所有内容放入一个新的[]int.

我的问题是,有没有更好的方法来做到这一点?

0 投票
3 回答
9370 浏览

scala - sbt 汇编错误 - 重复数据删除:在以下内容中找到不同的文件内容

当我./sbt assembly对我的 Scala 项目执行 a 时,我收到以下错误。build.sbt在将这些依赖项添加到我可以编译和运行我的代码之后,我看到了第一个。

0 投票
0 回答
40 浏览

sql - 重复数据删除 SQL Server 表 [存储过程]

我正在寻找使用存储过程对表进行重复数据删除。没有 1 列是唯一的,因此我必须合并 2 列或更多列才能获得唯一标识符。ID 列是identity int,但在数据导入时由sql 自动生成。我需要以某种方式组合 2 个或更多列(不包括 ID 列)以获得唯一标识符,以便我可以删除任何重复的内容。

从那里我认为执行以下操作最有意义[如果我的方法错误,请纠正我]。

  1. 创建临时表
  2. 使用重复数据删除逻辑查询表
  3. 将查询结果导入新的临时表
  4. 删除原始内容[或删除内容?]
  5. 重新创建原始[或重新填充?] 从临时导入数据
  6. 删除临时表

我有以下列。我认为 sessionid+callflow 是独一无二的。

sessionid, legid, dialednumber, callerid, calldatetime, dayofweek, hourofday, end_type, callduration, callorder, callflow, ID, [pk] origin

0 投票
2 回答
1108 浏览

mysql - Mysql在单个查询中删除重复记录

我有下表:

在这个表中有重复,这些是具有完全相同的关系代码和电子邮件地址的关系。他们可以在那里两次甚至十次。我需要一个查询来选择所有记录的 id,但不包括其中不止一次的那些。在这些记录中,我只想选择具有最新 last_contact_id 的记录。

我比 Mysql 更喜欢 Oracle,在 Oracle 中我可以这样做:

但我不知道如何修改此查询以在 MySql 中工作。我什至不敢在 MySQl 的单个查询中做同样的事情。有任何想法吗?

0 投票
1 回答
124 浏览

java - 用于对数组进行重复数据删除的 Java 程序

有人可以帮助为下面编写一个有效的java函数吗?

在不使用内部排序或重复数据删除功能的情况下,获取一个包含重复条目的数组并返回一个没有重复项的新数组。例如

// 返回 2,5,10,1,“john”, “andy”, “peter”</p>

0 投票
0 回答
543 浏览

c - GDB:Lessfs;如何追踪

我正在尝试跟踪这个名为 lessfs: 的开源程序和适用于 linux 的内联重复数据删除文件系统,但我无法使用 GDB 逐步完成

Lessfs 可以在这里找到:http: //www.lessfs.com/wordpress/

是否有任何其他工具推荐用于跟踪大型开源程序?源代码大约有 3,000 行,包含多个文件,我知道我将处理文件的哪一部分,但是如果有一个程序可以一步一步地向我展示,正在调用哪些方法等等,那就太好了,就像 GDB 一样

目前,我对如何实际实现这一点有疑虑:

由于我并没有真正在 GDB 中运行一个简单的 C 文件,而是一组大型 C 文件,所以我对如何正确运行 GDB 知道有多个文件有点迷茫

以下是我经常使用的命令,可以在本教程中找到:

http://www.linuxjournal.com/content/data-deduplication-linux

常规命令(没有 GDB)

///** 以上是先决条件**///

///** 启动lessfs **///

///** 测试 **///

///** 使用 GDB **///

(运行它,我做得对吗??)

我真正想做的是在文件 lib_commons.c 中有一些打印语句并从那里打印一些数据,但是当这个开源程序中组合了这么多文件时,我该怎么做呢?

感谢您的时间,

0 投票
1 回答
338 浏览

c - 追踪大型源代码

我正在尝试修改一些开源代码,但我无法解决如何这样做

我正在使用的开源程序叫做lessfs,它有大约四个C 文件,最多3000 行代码。我只关心源代码的一部分以便修改。

因此,我的问题是,如果我想在代码中添加一些打印语句,我怎么能看到它?

我必须运行程序还是编译程序并单独运行它们?还是给作者发电子邮件并想办法在程序运行时查看正在打印的某些项目会更好吗?

我尝试过使用 GDB,但是当您处理多个大文件时如何做到这一点?

我在这里发布了另一个类似的表格:

提前感谢您的时间

此外,有关我正在使用的源代码的更多信息,可以在此处找到:

http://www.lessfs.com/wordpress/

0 投票
1 回答
151 浏览

c - 顺序逐字节比较

我将如何使用 xor 按位运算在 c 中执行逐字节比较?比较两个文件时

我收到以下警告,然后当我运行它时说我的 test2.txt 为空,但里面有数据?

有任何想法吗?

0 投票
5 回答
142 浏览

mysql - 删除重复的字符串列表

我经常遇到这个问题:

  • 我有一个包含数据列表的 csv 文件
  • 我需要删除重复项(或者有时,找到重复的值)

csv很容易引入,excel但我找不到(或者永远不记得)查找/删除/计数重复值的好方法。

我可以将数据导出到数据库并运行一些简单的 sql 查询来完成所有这些操作,但随后数据库妨碍了大多数其他操作,我最终将数据导出回 excel 以执行单元级别的工作。

有没有一些工具可以让处理表格数据像 excel 一样简单,但包含 sql 查询语言的更强大的功能?

0 投票
2 回答
1008 浏览

linux - 重复数据删除 - Postfix 服务器?

我有一个运行 Postfix 的邮件服务器。每条消息都作为文件保存在文件系统中,所以我正在研究是否有办法减少重复文件,从而减少磁盘空间使用。

我尝试安装和使用 opendedup,但我真的不明白它是如何工作的。官方的快速入门指南只是没有提及它将使用哪个物理磁盘(我希望仅在 /dev/sdb1 上启用 dedup 等)。

我知道在 Microsoft Windows Server 上使用重复数据删除非常简单,而且效果很好,我在想是否有办法使用 Windows Server 制作 iSCSI 服务器,打开重复数据删除,然后在运行 Postfix 的 debian 上映射 iSCSI . 但这看起来真的很奇怪=/

顺便说一句,我在 Hyper-V 服务器上运行 Postfix 服务器。

我真的需要提供更大的邮箱,如果我无法使用 Linux 和 Postfix 获得它,他们将在 Microsoft Exchange 或其他东西上花费大量资金。