0

我需要查找并删除重复文件 (.pst) 并最终获得唯一的电子邮件。目前,我正在使用 Powershell 递归地遍历文件夹以仅查找 .pst 文件,然后将特定元数据导出到 .csv 文件中。有人建议我将 .csv 导入 SQL 以进行比较(名称、文件上的日期等)。在那之后,我被困住了。

哪种语言或程序最适合获取我需要的文件并删除其余文件?我几乎在 VB.Net(可以尝试 C#)和 powershell 中工作。

4

2 回答 2

1

我假设您确实将 .csv 导入了 SQL 数据库。假设表名是 psts。

首先,要找出有多少记录具有相同的电子邮件地址,

SELECT email, count(*)
FROM psts
GROUP BY email

接下来,你不想看到那些只有一个值的,所以,

SELECT email, count(*)
FROM psts
GROUP BY email
HAVING count(*) >= 2

获取这些记录的列表,

SELECT out.email, count(*), out.<other fields you want to see>
FROM psts out
  INNER JOIN psts pst_count ON out.email = pst_count.email
GROUP BY out.email
HAVING count(*) >= 2
于 2012-10-25T18:39:07.513 回答
1

你可以使用你真正想要的任何东西,只要它能够编辑文件系统并且可以执行 SQL 查询。

我不知道 VB.net 是否支持 SQL 服务器,但由于它是一种 .net 语言,我很确定它支持。

我会说使用您知道的支持这两个功能的任何语言:)

于 2012-10-25T18:31:13.880 回答