到目前为止,我有以下命令,只是有点卡在下一位。
comm -23 <( find /dir1/report_dir2/dir3/2013* -name *\*MyFile* -exec basename {} \; | sort | uniq ) <( find /dir0/dir1/dir2/loadedreports/archive* -name *\*MyFile* -exec basename {} \; | sort | uniq ) > /home/Ben10/list.txt
目录 1
中的文件/dir1/report_dir2/dir3/2013*
是 csv 文件,它们的名称中可能有也可能没有.gz
扩展名,解压缩它们是不可能的,因为它们每个都有一个演出,而且我有数千个。
即它们看起来像MyFile20130618073529.csv
或MyFile20130618073529.csv.gz
目录 2
中的文件/dir0/dir1/dir2/loadedreports/archive*
已加载到 BI 系统,并将全部以 .csv 结尾,
但是,它们也将在加载日期之前,
IE2013-11-06_MyFile20130618073529.csv
我正在将它们从这些 csv 文件加载到 BI DB 中,并检查我已加载的那些我需要检查哪些在/dir1/report_dir2/dir3/2013*
但不在dir0/dir1/dir2/loadedreports/archive*
有什么办法可以忽略.gz
, 和2013-11-06_
? 请注意,2013-11-06_ 可以是 MyFile 之前的任何日期。
感谢一百万,非常感谢任何输入。