我需要查找并删除重复文件 (.pst) 并最终获得唯一的电子邮件。目前,我正在使用 Powershell 递归地遍历文件夹以仅查找 .pst 文件,然后将特定元数据导出到 .csv 文件中。有人建议我将 .csv 导入 SQL 以进行比较(名称、文件上的日期等)。在那之后,我被困住了。
哪种语言或程序最适合获取我需要的文件并删除其余文件?我几乎在 VB.Net(可以尝试 C#)和 powershell 中工作。
我需要查找并删除重复文件 (.pst) 并最终获得唯一的电子邮件。目前,我正在使用 Powershell 递归地遍历文件夹以仅查找 .pst 文件,然后将特定元数据导出到 .csv 文件中。有人建议我将 .csv 导入 SQL 以进行比较(名称、文件上的日期等)。在那之后,我被困住了。
哪种语言或程序最适合获取我需要的文件并删除其余文件?我几乎在 VB.Net(可以尝试 C#)和 powershell 中工作。
我假设您确实将 .csv 导入了 SQL 数据库。假设表名是 psts。
首先,要找出有多少记录具有相同的电子邮件地址,
SELECT email, count(*)
FROM psts
GROUP BY email
接下来,你不想看到那些只有一个值的,所以,
SELECT email, count(*)
FROM psts
GROUP BY email
HAVING count(*) >= 2
获取这些记录的列表,
SELECT out.email, count(*), out.<other fields you want to see>
FROM psts out
INNER JOIN psts pst_count ON out.email = pst_count.email
GROUP BY out.email
HAVING count(*) >= 2
你可以使用你真正想要的任何东西,只要它能够编辑文件系统并且可以执行 SQL 查询。
我不知道 VB.net 是否支持 SQL 服务器,但由于它是一种 .net 语言,我很确定它支持。
我会说使用您知道的支持这两个功能的任何语言:)