bash - 如何在给定目录中（递归地）查找重复的文件名？重击

Question

我需要在给定的目录树中找到每个重复的文件名。我不知道，目录树用户将作为脚本参数给出什么，所以我不知道目录层次结构。我试过这个：

#!/bin/sh
find -type f | while IFS= read vo
do
echo `basename "$vo"`
done

但这不是我真正想要的。它只找到一个重复项然后结束，即使有更多重复的文件名，也 - 它不会打印整个路径（仅打印一个文件名）和重复计数。我想做类似于这个命令的事情：

find DIRNAME | tr '[A-Z]' '[a-z]' | sort | uniq -c | grep -v " 1 "

但它对我不起作用，不知道为什么。即使我有副本，它也不会打印任何内容。我使用的是 Xubuntu 12.04。

score 20 · Accepted Answer

这是另一个没有 awk 的解决方案（基于@jim-mcnamara 的建议）：

解决方案 1

#!/bin/sh 
dirname=/path/to/directory
find $dirname -type f | sed 's_.*/__' | sort|  uniq -d| 
while read fileName
do
find $dirname -type f | grep "$fileName"
done

但是，您必须进行两次相同的搜索。如果您必须搜索大量数据，这可能会变得非常慢。将“查找”结果保存在临时文件中可能会提供更好的性能。

解决方案2（带有临时文件）

#!/bin/sh 
dirname=/path/to/directory
tempfile=myTempfileName
find $dirname -type f  > $tempfile
cat $tempfile | sed 's_.*/__' | sort |  uniq -d| 
while read fileName
do
 grep "/$fileName" $tempfile
done
#rm -f $tempfile

由于在某些情况下您可能不想在硬盘驱动器上写入临时文件，因此您可以选择适合您需要的方法。这两个示例都打印出文件的完整路径。

这里有一个额外的问题：是否可以将 find 命令的整个输出作为列表保存到变量中？

score 16 · Accepted Answer

是的，这是一个非常古老的问题。但是所有这些循环和临时文件似乎有点麻烦。

这是我的 1 行答案：

find /PATH/TO/FILES -type f -printf '%p/ %f\n' | sort -k2 | uniq -f1 --all-repeated=separate

由于uniq和，它有其局限性sort：

文件名中没有空格（空格、制表符）（将被uniqand解释为新字段sort）
需要将文件名打印为由空格分隔的最后一个字段（uniq不支持仅比较 1 个字段并且不灵活地使用字段分隔符）

但是它的输出非常灵活，这要归功于find -printf我，并且对我来说效果很好。似乎也是@yak 最初试图实现的目标。

展示您对此的一些选择：

find  /PATH/TO/FILES -type f -printf 'size: %s bytes, modified at: %t, path: %h/, file name: %f\n' | sort -k15 | uniq -f14 --all-repeated=prepend

也有选项sort和uniq忽略大小写（作为主题开启者旨在通过管道实现tr）。man uniq使用或查找它们man sort。

score 8 · Accepted Answer

#!/bin/sh
dirname=/path/to/check
find $dirname -type f | 
while read vo
do
  echo `basename "$vo"`
done | awk '{arr[$0]++; next} END{for (i in arr){if(arr[i]>1){print i}}}

score 2 · Accepted Answer

#!/bin/bash

file=`mktemp /tmp/duplicates.XXXXX` || { echo "Error creating tmp file"; exit 1; }
find $1 -type f |sort >  $file
awk -F/ '{print tolower($NF)}' $file |
        uniq -c|
        awk '$1>1 { sub(/^[[:space:]]+[[:digit:]]+[[:space:]]+/,""); print }'| 
        while read line;
                do grep -i "$line" $file;
        done

rm $file

它也适用于文件名中的空格。这是一个简单的测试（第一个参数是目录）：

./duplicates.sh ./test
./test/2/INC 255286
./test/INC 255286

score 2 · Accepted Answer

只有一个“查找”命令：

lst=$( find . -type f )
echo "$lst" | rev | cut -f 1 -d/ | rev | sort -f | uniq -i | while read f; do
   names=$( echo "$lst" | grep -i -- "/$f$" )
   n=$( echo "$names" | wc -l )
   [ $n -gt 1 ] && echo -e "Duplicates found ($n):\n$names"
done

score 0 · Accepted Answer

此解决方案为找到的每个唯一文件名将一个临时文件写入临时目录。在临时文件中，我写了我第一次找到唯一文件名的路径，以便以后可以输出。因此，我创建了比其他发布解决方案更多的文件。但是，这是我能理解的。

以下是脚本，名为fndupe.

#!/bin/bash

# Create a temp directory to contain placeholder files.
tmp_dir=`mktemp -d`

# Get paths of files to test from standard input.
while read p; do
  fname=$(basename "$p")
  tmp_path=$tmp_dir/$fname
  if [[ -e $tmp_path ]]; then
    q=`cat "$tmp_path"`
    echo "duplicate: $p"
    echo "    first: $q"
  else
    echo $p > "$tmp_path" 
  fi
done

exit

以下是使用脚本的示例。

$ find . -name '*.tif' | fndupe

以下是脚本发现重复文件名时的示例输出。

duplicate: a/b/extra/gobble.tif
    first: a/b/gobble.tif

用 Bash 版本测试：GNU bash, version 4.1.2(1)-release (x86_64-redhat-linux-gnu)

score 0 · Accepted Answer

这是我的贡献（这只是搜索特定的文件类型，在这种情况下为 pdfs），但它是递归的：

#!/usr/bin/env bash

find . -type f | while read filename; do
    filename=$(basename -- "$filename")
    extension="${filename##*.}"
    if [[ $extension == "pdf" ]]; then
        fileNameCount=`find . -iname "$filename" | wc -l`
        if [[ $fileNameCount -gt 1 ]]; then
            echo "File Name: $filename, count: $fileNameCount"
        fi
    fi
done

bash - 如何在给定目录中（递归地）查找重复的文件名？重击

7 回答 7

这是我的 1 行答案：

Related

Reference