问题标签 [deduplication]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 去重复多维数组
我有一个相当简单的多维数组,我需要对其进行重复数据删除。我还需要删除任何具有值的键,因此在下面的代码中,我需要保留 city/Paris 的第二个目标/值(数组 3)并删除第 6 个数组。
我可以通过以下方式做到这一点:
- 展平阵列
- 将目标/值分配为新的键/值(如果有欺骗,这会自动覆盖后面的值)
- 删除任何值为
- 重建阵列
这感觉不对,我确信使用 array_walk_recursive() 有更好的解决方案,因为这可能会保留原始密钥并提供更优雅的解决方案。
这是我当前的代码:
information-extraction - 从多个网站提取的聚合和重复数据删除信息
我正在建立一个从多个网站提取的餐厅时间和地址信息数据库。由于同一餐厅的信息可能出现在多个网站中。所以在数据库中我会有一些几乎重复的副本。
由于餐厅的数量很大,比如 100000。然后对于每个新条目,我必须进行 100000^2 的比较,以检查是否已经存在任何名称几乎相似的餐厅信息。所以我问是否有比这更好的有效方法。谢谢你。
aggregation - 查找地址之间的相似性
我编写了以下代码来查找两个邮政地址之间的相似性
但是通过这种方法,我发现了许多误报。在这里,我将阈值设为 0.5,即如果相似度得分高于 0.5,那么它们可能是相似的。但是仅增加阈值并不能解决我的问题,因为许多不同地址的相似度得分约为 0.7 左右,并且它可能会错过许多相似度得分接近 0.6 左右的真正相似的对。
例如,以下两个地址 9/18, Ekdalia Road, Gariahat, Kolkata 和 1/3, City Mall, Jessore Road, Near Dak Banglow More, Barasat, Kolkata - 700124 之间的相似度 为 0.6488,但它们根本不一样.
所以我问是否有人可以提出更好的方法来做同样的事情。谢谢你。
google-apps-script - 谷歌脚本根据两列标准删除重复行
我正在使用一个脚本,它从日历中提取事件详细信息并将它们添加到电子表格的 A 列和 B 列中,删除任何重复的事件,然后根据日期进行排序。我希望那时我可以让工作人员在 C、D 等列中添加有关这些事件的其他数据。
这似乎工作正常,但是一旦在 C、D 列中添加信息,脚本重复数据删除功能就会停止工作,因为它正在比较整行,而不仅仅是正在导入的内容。
在确定行是否重复并应删除时,是否有一种方法可以调整以下重复数据删除脚本以仅检查 A 列和 B 列?
我已尝试使用本文变体部分中的代码(当前已注释掉)调整:https ://developers.google.com/apps-script/articles/removing_duplicates - 但它似乎仍然不起作用.
感谢您的任何帮助
剧本:
hive - 使用 HiveQL 进行重复数据删除
我有一个带有字段'a'(int),'b'(string),'c'(bigint),'d'(bigint)和'e'(string)的配置单元表。
我有如下数据:
表按键“b”排序。
现在我们想要如下输出:
这将在密钥“a”上进行重复数据删除,但将保留最后一个(最新的)“b”。
是否可以使用 Hive 查询(HiveQL)?
sitecore - 策划内容与提要内容重复数据删除
在公共网站的主页上,我们有多个模块,分为策划内容(用户手动选择文章/出版物)和提要内容(根据参数自动填充的模块,通常按日期排序)。这些模块布置在主页的主体中,就在主图像和菜单的下方。这些可以是混合顺序的,不一定是任何特定的顺序。
所有这些内容都存储在 Sitecore 中,两种模块类型由不同的模板类型分隔。
有时某些文章会出现在主页上的两种模块类型中。我们希望避免这种重复数据删除。我们有一定的方法来做到这一点,但要看看是否有人以前做过,并决定最好的方法。以下是我们提出的两个解决方案 -
加载所有手动策划的模块。将逗号分隔的模块 ID 存储到隐藏字段中。在加载提要模块时,忽略隐藏字段中带有 ID 的任何文章。
加载所有手动策划的内容。将 ID 存储到 Web 服务器内存中的列表或数组中。加载提要模块时,忽略内存中列表或数组中具有 ID 的任何文章。
我们在这里看到的唯一潜在问题是提要和精选模块的顺序会混乱,因此我们无法在加载任何提要内容模块之前获取所有精选内容 ID。
欢迎任何建议/想法。
谢谢
mysql - 从mysql表中删除所有重复项
我有一个表格,其中显示了产品 ID 以及它们被给予的次数,1 星、2 星、3 星、4 星和 5 星在客户评论时以及该产品的平均评分。此表中出现了一些重复的行。如何删除完全重复的行,例如 ProductId 1196585。下表是一个示例。
为了澄清起见,我想修改表格,我会先复制一份。
python - 遍历包含重复元素的列表
我正在尝试迭代一个包含一些重复元素的列表。我正在使用重复的数量,所以我不想在迭代列表之前将列表放入一个集合中。
我试图计算元素出现了多少次,然后写下元素(名称)和它出现的次数。
我遇到的问题是,在我的输出 CSV 文件中,行数与元素出现的次数一样多。我在完成后将 CSV 写入 HTML 表,因此我希望对其进行重复数据删除。
我的最终目标是计算名称出现的次数,然后在包含名称和计数的 CSV 文件中写入一行,然后移至列表中的下一个名称。
我尝试搜索并遇到了,itertools.groupby
但我不确定这在这种情况下是否有用,如果有用,如何正确使用它。
谢谢您的帮助。
编辑:我忘了提 - Python 2.6
python - Python删除倒置矩阵中的重复案例
我有一个看起来像这样的列表:
如您所见,有些案例是重复的。例如
与(但倒置)相同
从该列表中删除重复项的最佳方法是什么(具有一定的效率,但如果需要也可以不使用它)?所以在这种情况下,我会保留 [340853571828469762, 340854579195432961]
,但删除[340854579195432961, 340853571828469762]
.