10

我需要列出大量文件(40,000 个文件),如下所示:

ERR001268_1_100.fastq  ERR001268_2_156.fastq  ERR001753_2_78.fastq
ERR001268_1_101.fastq  ERR001268_2_157.fastq  ERR001753_2_79.fastq
ERR001268_1_102.fastq  ERR001268_2_158.fastq  ERR001753_2_7.fastq
ERR001268_1_103.fastq  ERR001268_2_159.fastq  ERR001753_2_80.fastq

我的命令是:ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist 但是错误是:bash: /bin/ls: Argument list too long

但是我能解决这个问题吗?perl/python 还有其他方法可以制作这样的列表吗?

谢谢

4

4 回答 4

16

您应该可以替换ls ERR*_1_*.fastqfind . -name "ERR*_1_*.fastq".
这样,您可以避免将通配符扩展为一个巨大的参数列表。

find输出将包括一个前导的“./”,例如./ERR001268_1_100.fastq。如果不希望这样做,您可以sed稍后在管道中使用另一个命令将其删除。)

于 2011-08-11T17:26:02.387 回答
1

如果文件已经全部存在于您的目录中,则 python 的“glob”模块可能比 bash 的命令行具有更高的限制。

从命令行:

python -c "import glob; print glob.glob('ERR_*_1_*.fastq')"

要在 python 中完成所有操作,您可以尝试以下操作:

import glob
files = glob.glob("ERR_*_1_*.fastq")
trimmedfiles = [x.replace(".fastq","") for x in files]
trimmedfiles.sort()
for f in trimmedfiles:
    print f

此解决方案将按字母顺序对文件进行排序,而不是按数字排序。为此,您可能需要在 sort() 方法中添加一些 key=lambda 魔法:

trimmedfiles.sort(key=lambda f: int(f.split("_")[2]))
于 2011-08-11T17:37:53.950 回答
0

Find 可能会对您有所帮助 - 而不是 ls 使用find . -name 'yourpatternhere' -print0 | xargs -0 youractionhere

于 2011-11-07T12:26:45.510 回答
0

您可以使用find.

例子:

find /Users/kunlun/Downloads/fu_neg/ -name "*.png" > 
/Users/kunlun/Downloads/fu_neg.txt
于 2020-03-04T09:50:14.643 回答