问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
203 浏览

python - 列表理解之谜 - Python

我创建了两个 CSV 列表。一个是原始 CSV 文件,另一个是该文件的 DeDuped 版本。我已将每一个读入一个列表,并且出于所有意图和目的,它们的格式相同。每个列表项都是一个字符串。

我正在尝试使用列表理解来找出重复删除了哪些项目。原始长度为 16939,DeDupe 列表为 15368。相差 1571,但我的列表理解长度为 368。想法?

编辑:对于评论中的一些注释,这是对我的列表组合和列表本身的测试。几乎相同的差异,20左右。不是我需要的1500!谢谢!

0 投票
6 回答
1001 浏览

c - C 编程:如何避免代码重复而不失去清晰度

编辑:感谢所有回复者。我应该在我的原始帖子中提到我不允许更改这些函数的任何规范,因此使用断言和/或允许取消引用 NULL 的解决方案是不可能的。考虑到这一点,我认为要么我使用函数指针,要么直接保留重复项。为了清楚起见,这次我想避免使用函数指针。

原文:我试图避免代码重复而不会失去清晰度。通常在从事特定任务(Uni-undergrad)时,我认识到这些功能模式返回,但并不总是具有“出色的工作”解决方案..

你们中的任何人建议我应该用这三个 C 函数做什么(指向函数、宏等),它们以相同的方式检查它们的一些参数以使检查更加模块化(它应该更加模块化,对吗?) ?

顺便说一句,这些是直接从硬件分配中获取的,因此它们的功能细节与我的问题无关,只是在函数顶部检查的参数。

任何关于如何(特别)避免代码重复的建议将不胜感激。

谢谢你的时间!:)

0 投票
2 回答
880 浏览

hadoop - 重复键过滤

我正在寻找一种分布式解决方案来实时筛选/过滤大量密钥。我的应用程序每天生成超过 1000 亿条记录,我需要一种方法来过滤流中的重复项。我正在寻找一个系统来存储滚动 10 天的密钥,每个密钥大约 100 个字节。我想知道在使用 Hadoop 之前如何解决此类大规模问题。HBase 会是正确的解决方案吗?有没有人尝试过像 Zookeeper 这样的部分内存解决方案?

0 投票
2 回答
154 浏览

php - 用 PHP 重命名重复记录

我知道您可以使用以下查询在 MYSQL 中选择重复的行:

我希望能够选择重复项并用 PHP 重命名它们。那可能吗?如果它为一个“bedrijfsnaam-plaats”组合找到三个重复项,我想在“bedrijfsnaam”值的末尾添加“I”、“II”、“III”。这甚至可能吗?我可以运行某种循环吗?

谢谢..

0 投票
1 回答
1094 浏览

linux - 根据哈希值复制目录中的所有唯一文件

任何人都可以帮我处理这段代码吗?我正在尝试在 Bash 中编写一个脚本,它将为目录中的所有文件生成哈希,如果有两个重复的哈希,那么只有一个图像被复制到目标目录,任何人都可以看到我哪里出错了这里?

我必须使用 md5sum,所以不幸的是没有其他 sha1s、fdupes 或类似的东西。

0 投票
0 回答
150 浏览

ios - 如何在 iOS 编程中从 Web 加载的 xml 中删除重复项

假设我从网络上的 xml 文件中解析了以下配置文件并想要删除重复项,我该怎么做?例如,有 2 个具有相同名字 (Amin) 的配置文件,我只想显示 1 个。我正在使用 NSLog 在命令输出窗口中显示从 xml 文件解析的所有配置文件,并说我是否想要一个按钮应该过滤配置文件并删除重复项并更新命令输出窗口(使用 NSLog)并删除重复项。

解析代码:

编辑

我为解析创建了一个单独的类以简化该过程。现在我想在原始 ViewController 类的 viewDidLoad 中从此类(XMLParser 类)加载 -(void)loadXML,但它给了我错误。有人可以告诉我我在这里做错了什么吗?

视图控制器.m

XMLParser.h

XMLParser.m

0 投票
2 回答
179 浏览

ruby-on-rails - Rails 控制器动作重复

我有一个控制器显示动作,它做一些事情并呈现一个视图,但由于一些自定义路由,我需要在一个完全不同的控制器中执行一个完全不同的动作来执行相同的事情并呈现相同的视图。

我真的不想复制代码。有什么地方可以放它并从两个位置调用它吗?

编辑:

我基本上需要从 Collection#Show 和 Gallery#SplitUrl 运行以下内容:

我不能只是redirect_toCollection#Show 在 Gallery#SplitUrl 的末尾,因为重定向会导致我的自定义 URL 丢失,因为它是一个新请求。

0 投票
5 回答
176 浏览

arrays - Perl - 在一个数组中删除重复项时,从另一个数组中弹出元素

我有两个关联的数组。第一个具有哈希中的“键”,第二个具有“值”。数组中每个“键”都有多个实例,与每个键关联的值可以是yes,也可以是no。一个简单的例子:

请注意,与“键”NET1020 关联的值是 yes 和 no。

我需要使用@1 来第一次查找重复项并将它们从两个数组中删除,如果@2 中的一个值不是,那么这需要是@1 中“键”的值。如果不是,那么该值可以是yes。基本上我需要结束的是:

我希望我的解释足够清楚。我是一个 perl 新手,不知道从哪里开始。

谢谢你的帮助。

0 投票
1 回答
803 浏览

linux - 使用 FUSE 时,如何将所有现有目录挂载到挂载点?

我正在尝试使用 FUSE 构建具有重复数据删除功能的新文件系统。

我尝试运行fusexmp_fh.cFUSE 示例部分中提供的内容。但是,在挂载点挂载文件系统后,我可以看到挂载点内的所有现有目录。我不需要那些目录。我希望挂载的文件系统为空。

我尝试搜索,fusexmp_fh.c但找不到添加现有目录的位置。

  • 有人可以向我解释这是如何工作的吗?

  • 可以fusexmp_fh.c作为构建文件系统的基础吗?
  • 它具有所有基本功能吗?
0 投票
1 回答
1302 浏览

python - Python Dedup/Merge 字典列表

假设我有一个字典列表:

在这个字典中,'name' 可以被认为是一个唯一的标识符。我的目标不仅是为相同的字典(即列表 [1] 和列表 [2])删除此列表,而且还为单个“名称”(即列表 [0] 和列表 [1/2 ]. 换句话说,我想将示例中的所有 'name'='john' 字典合并到一个字典中,如下所示:

到目前为止,我已经尝试创建我的第二个列表 dedup_list,并遍历第一个列表。如果 dedup_list 的字典之一中不存在“name”键,我将附加它。这是我卡住的合并部分。

我的 dicts 列表永远不会包含超过 100 个项目,因此 O(n^2) 解决方案绝对是可以接受的,但不一定是理想的。这个 dedup_list 最终将被写入 CSV,所以如果有解决方案,我会全力以赴。

谢谢!