问题标签 [duplicate-removal]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 如何使用 SSIS 从平面文件中删除重复的行?
首先让我说,能够从一个平面文件中获取 1700 万条记录,然后将其推送到远程机器上的数据库并花费 7 分钟,这真是太棒了。SSIS 真的很棒。但是现在我已经有了这些数据,我该如何删除重复项?
更好的是,我想获取平面文件,从平面文件中删除重复项并将它们放回另一个平面文件中。
我正在考虑一个:
Data Flow Task
- 文件源(带有关联的文件连接)
- 一个 for 循环容器
- 一个脚本容器,包含一些逻辑来判断另一行是否存在
谢谢你,这个网站上的每个人都知识渊博。
Update:
我找到了这个链接,可能有助于回答这个问题
sql - 从没有主键的 SQL 表中删除重复记录
我有下表,其中包含以下记录
我在这个表中没有任何主键。但我的表中已经有上述记录。我想删除 EmpId 和 EmpSSN 字段中具有相同值的重复记录。
例如:Emp id 5
谁能帮我构建一个查询以删除那些重复的记录
提前致谢
c - 比较子集的集合直至排列
我有一个数组 a[i][j]。元素是 char,解释为集合 {1,...,8} 的子集(如果第 k 位为 1,则元素 k 在子集中)。我认为这无关紧要,但每个元素都设置了 4 位。
每一行 a[1][j]..a[n][j] 是 {1,...,8} 的子集的集合。我需要删除重复的行,如果可以通过 {1,...,8} 的排列从另一行获得两行,则将两行视为重复行。
示例(0bxxxxxxxx 表示二进制数):
是重复的
因为前者可以通过应用置换从后者获得
并重新排序结果。
出于性能考虑,该数组包含大约 2000 行,每行最多包含 20 个元素。每一行都已经排序,如果这可能有帮助的话,这些行也是按字典顺序递增的。算法的其余部分是用 C 编写的,因此首选 C 解决方案。
谢谢你的帮助。
python - Python删除所有在字段中具有共同值的行
我有由 4 个字段组成的数据行
请多多包涵。
第一个和第三个字段总是相同的 - 但我不需要它们,第四个字段可以相同或不同。问题是,我只想要不共享公共字段的行中的第 2 和第 4 字段。例如从上面的数据中
现在我的意思不是重复数据删除,因为那样会留下一个条目。如果第四个字段与另一行共享一个值,我不想要任何具有该值的行。
再次为问什么可能很简单而道歉。
tsql - 将列更新为不同的聚合值
我正在创建一个用于“合并”和删除表中重复行的脚本。该表包含地址信息,并使用整数字段将有关电子邮件的信息存储为位标志(列名 lngValue)。例如,lngValue & 1 == 1 表示它的主地址。
有两次输入同一电子邮件的情况,但有时使用不同的 lngValues。为了解决这个问题,我需要从所有重复项中获取 lngValue 并将它们分配给一个幸存的记录并删除其余记录。
迄今为止,我最头疼的就是记录的“合并”。我想要做的是按位或重复记录的所有 lngValues 一起。这是我到目前为止所拥有的,它只找到所有 lngValues 的值按位或一起。
警告:前面的代码混乱
编辑:
这里要求的是一些示例数据:
表名:tblminternet
列名:
lngInternetPK
lngContactFK
lngValue
strAddress
示例第 1 行:
lngInternetPK:1
lngContactFK:1
lngValue:33
strAddress:“me@myaddress.com”
示例第 2 行:
lngInternetPK:2
lngContactFK:1
lngValue:40
strAddress:“me@myaddress.com”
如果这两个在这里合并是期望的结果:
lngInternetPK: 1
lngContactFK: 1
lngValue: 41
strAddress: "me@myaddress.com"
其他必要规则:
每个联系人可以有多个电子邮件,但每个电子邮件行必须是不同的(每个电子邮件只能显示为一行)。
process - AMQP 延迟传递和防止重复消息
我有一个系统会偶尔生成消息,我想每 5 分钟只提交零或一条消息。如果没有生成消息,则队列使用者不会处理任何内容。如果在 5 分钟内生成了 100 条相同的消息,我只希望从队列中使用其中的一条。
我正在使用 AMQP(RabbitMQ),有没有办法在 rabbitmq 或 AMQP 协议中实现这一点?我可以检查队列的内容以确保不插入重复项吗?队列检查似乎是一个坏主意,通常不应该为消息传递系统做些什么。
如果没有队列检查,这可以用这些工具来完成吗?想到的唯一解决方案是使用第二个队列接收所有消息,然后消费者读取每条消息并将其放入内部队列中,等待 5 分钟,然后丢弃收到的任何重复消息。在延迟之后,单条消息被放到“真正的”队列中进行处理。
看起来这可能是队列系统可以处理的常见情况。有任何想法吗?
postgresql - Postgres csv导入重复键错误?
我正在将 CSV 文件导入 postgres。
避免此错误的最佳方法是什么.. 我是否必须编写一个 python 脚本来处理此错误..
php - SQL删除重复一行
我有一张表,可以在其中保存曾经发生的所有行更改。问题在于,在应用程序的开头有一个错误,它会为每一行制作一堆副本。
该表如下所示:
CID 在表副本中是唯一的。
我想要的是删除所有按 CID 排序的 DATA GROUP BY ID 的重复项。
正如您在表中看到的,CID 2 和 3 是相同的,它们是一个接一个。我想删除 CID 3。与 CID 4 和 CID 6 相同;它们之间没有 ID 1,是 CID 1 的副本。
删除重复项后,我希望表格如下所示:
有什么建议么?:)
我认为我的问题被问得很糟糕,因为每个人似乎都认为最好的答案给出了这个结果:
CID 252227 和 CID 438158 是重复的,但是因为 CID 381530 在它们之间;我想保留这个。当按 CID 和 ID 订购时,只有重复的重复。
sql - 如何优化 sql doublon 检查器
如果有人知道如何更快,我想优化我的 Doublon 检查器。
php - 拆分字符串并加入重复项
我正在尝试创建一个带有扭曲的选择框下拉菜单,
基本上,这是一个 Ajax 表单,当从列表中选择一个项目时,它会将其添加到文本字段中。但是,我还想在这里添加一些额外的选择。
我得到的字符串由例如.COMPANY
_
SITE
_
DEPARTMENT
SDGCC_NEWTOWN_INBOUND
使用 PHP,我希望从 logintags 表中的数据库中获取每个项目,该表可能包含多个,所以如果这有意义,我希望下拉框有特殊选择来添加所有站点?我已经尝试过了,但是如果包含标签的行不止一行,我会得到重复。COMPANY
_
SDGCC
SDGCC
SDGCC
重复:
SDGCC_NEWTOWN_INBOUND
SDGCC_NEWTOWN_QH
SDGCC_BOLTON_QH
ARISE_HOME_ORDERS
ARISE_HOME_ENQUIRIES
ETC...
所以基本上它有一个选择所有 SDGCC 站点的选项,但是因为该数据库可以随时更改,我们只需要字符串的第一部分(即 SDGCC、ARISE)部分在选择框中显示(一次)。
我目前正在尝试从下面建议的查询
SELECT DISTINCT SUBSTRING(tag, 0, LOCATE('_', tag)) FROM
dept_logintags
LIMIT 0, 30
但是,这不返回任何行