问题标签 [deduplication]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
149 浏览

php - 去重复多维数组

我有一个相当简单的多维数组,我需要对其进行重复数据删除。我还需要删除任何具有值的键,因此在下面的代码中,我需要保留 city/Paris 的第二个目标/值(数组 3)并删除第 6 个数组。

我可以通过以下方式做到这一点:

  • 展平阵列
  • 将目标/值分配为新的键/值(如果有欺骗,这会自动覆盖后面的值)
  • 删除任何值为
  • 重建阵列

这感觉不对,我确信使用 array_walk_recursive() 有更好的解决方案,因为这可能会保留原始密钥并提供更优雅的解决方案。

这是我当前的代码:

0 投票
2 回答
138 浏览

information-extraction - 从多个网站提取的聚合和重复数据删除信息

我正在建立一个从多个网站提取的餐厅时间和地址信息数据库。由于同一餐厅的信息可能出现在多个网站中。所以在数据库中我会有一些几乎重复的副本。

由于餐厅的数量很大,比如 100000。然后对于每个新条目,我必须进行 100000^2 的比较,以检查是否已经存在任何名称几乎相似的餐厅信息。所以我问是否有比这更好的有效方法。谢谢你。

0 投票
2 回答
2581 浏览

aggregation - 查找地址之间的相似性

我编写了以下代码来查找两个邮政地址之间的相似性

但是通过这种方法,我发现了许多误报。在这里,我将阈值设为 0.5,即如果相似度得分高于 0.5,那么它们可能是相似的。但是仅增加阈值并不能解决我的问题,因为许多不同地址的相似度得分约为 0.7 左右,并且它可能会错过许多相似度得分接近 0.6 左右的真正相似的对。

例如,以下两个地址 9/18, Ekdalia Road, Gariahat, Kolkata1/3, City Mall, Jessore Road, Near Dak Banglow More, Barasat, Kolkata - 700124 之间的相似度 为 0.6488,但它们根本不一样.

所以我问是否有人可以提出更好的方法来做同样的事情。谢谢你。

0 投票
2 回答
1051 浏览

filesystems - Opendedup 不会减少存储空间

我正在测试Opendedup,它似乎运行正确,但是我放入去重分区的文件的实际大小几乎与该分区所占用的有效大小相同。

在配置文件中,激活了重复数据删除(dedup-files="true"),并且在文档中指出它是默认激活的,但我只有 130ko 的重复字节。

数据是视频文件,我想我可以获得更多的存储空间。

编辑

我用一个填充零的文件进行了测试,增益更好:1Mo 为 262ko。但是如果我压缩这个文件,我会得到 10ko,所以我想知道我是否可以选择获得更好的压缩系数。

0 投票
2 回答
3258 浏览

google-apps-script - 谷歌脚本根据两列标准删除重复行

我正在使用一个脚本,它从日历中提取事件详细信息并将它们添加到电子表格的 A 列和 B 列中,删除任何重复的事件,然后根据日期进行排序。我希望那时我可以让工作人员在 C、D 等列中添加有关这些事件的其他数据。

这似乎工作正常,但是一旦在 C、D 列中添加信息,脚本重复数据删除功能就会停止工作,因为它正在比较整行,而不仅仅是正在导入的内容。

在确定行是否重复并应删除时,是否有一种方法可以调整以下重复数据删除脚本以仅检查 A 列和 B 列?

我已尝试使用本文变体部分中的代码(当前已注释掉)调整:https ://developers.google.com/apps-script/articles/removing_duplicates - 但它似乎仍然不起作用.

感谢您的任何帮助

剧本:

0 投票
1 回答
1847 浏览

hive - 使用 HiveQL 进行重复数据删除

我有一个带有字段'a'(int),'b'(string),'c'(bigint),'d'(bigint)和'e'(string)的配置单元表。
我有如下数据:

表按键“b”排序。
现在我们想要如下输出:

这将在密钥“a”上进行重复数据删除,但将保留最后一个(最新的)“b”。

是否可以使用 Hive 查询(HiveQL)?

0 投票
1 回答
201 浏览

sitecore - 策划内容与提要内容重复数据删除

在公共网站的主页上,我们有多个模块,分为策划内容(用户手动选择文章/出版物)和提要内容(根据参数自动填充的模块,通常按日期排序)。这些模块布置在主页的主体中,就在主图像和菜单的下方。这些可以是混合顺序的,不一定是任何特定的顺序。

所有这些内容都存储在 Sitecore 中,两种模块类型由不同的模板类型分隔。

有时某些文章会出现在主页上的两种模块类型中。我们希望避免这种重复数据删除。我们有一定的方法来做到这一点,但要看看是否有人以前做过,并决定最好的方法。以下是我们提出的两个解决方案 -

  1. 加载所有手动策划的模块。将逗号分隔的模块 ID 存储到隐藏字段中。在加载提要模块时,忽略隐藏字段中带有 ID 的任何文章。

  2. 加载所有手动策划的内容。将 ID 存储到 Web 服务器内存中的列表或数组中。加载提要模块时,忽略内存中列表或数组中具有 ID 的任何文章。

我们在这里看到的唯一潜在问题是提要和精选模块的顺序会混乱,因此我们无法在加载任何提要内容模块之前获取所有精选内容 ID。

欢迎任何建议/想法。

谢谢

0 投票
3 回答
1467 浏览

mysql - 从mysql表中删除所有重复项

我有一个表格,其中显示了产品 ID 以及它们被给予的次数,1 星、2 星、3 星、4 星和 5 星在客户评论时以及该产品的平均评分。此表中出现了一些重复的行。如何删除完全重复的行,例如 ProductId 1196585。下表是一个示例。

为了澄清起见,我想修改表格,我会先复制一份。

0 投票
1 回答
1952 浏览

python - 遍历包含重复元素的列表

我正在尝试迭代一个包含一些重复元素的列表。我正在使用重复的数量,所以我不想在迭代列表之前将列表放入一个集合中。

我试图计算元素出现了多少次,然后写下元素(名称)和它出现的次数。

我遇到的问题是,在我的输出 CSV 文件中,行数与元素出现的次数一样多。我在完成后将 CSV 写入 HTML 表,因此我希望对其进行重复数据删除。

我的最终目标是计算名称出现的次数,然后在包含名称和计数的 CSV 文件中写入一行,然后移至列表中的下一个名称。

我尝试搜索并遇到了,itertools.groupby但我不确定这在这种情况下是否有用,如果有用,如何正确使用它。

谢谢您的帮助。

编辑:我忘了提 - Python 2.6

0 投票
3 回答
156 浏览

python - Python删除倒置矩阵中的重复案例

我有一个看起来像这样的列表:

如您所见,有些案例是重复的。例如

与(但倒置)相同

从该列表中删除重复项的最佳方法是什么(具有一定的效率,但如果需要也可以不使用它)?所以在这种情况下,我会保留 [340853571828469762, 340854579195432961],但删除[340854579195432961, 340853571828469762].