13

我正在尝试在许多 gzip 压缩的 csv 文件中搜索某个字符串,该字符串位于第一行,我的想法是通过组合 find、zcat 和 head 来获取每个文件的第一行。但我不能让他们一起工作。

$find . -name "*.gz" -print | xargs zcat -f | head -1
20051114083300,1070074.00,0.00000000
xargs: zcat: terminated by signal 13

example file:
$zcat 113.gz | head
20050629171845,1069335.50,-1.00000000
20050629171930,1069315.00,-1.00000000
20050629172015,1069382.50,-1.00000000
 .. and 2 milion rows like these ...

虽然我通过编写 bash 脚本、遍历文件并写入临时文件来解决问题,但很高兴知道我做错了什么、如何做以及是否有其他方法可以解决。

4

4 回答 4

8

You should find that this will work:

find . -name "*.gz" | while read -r file; do zcat -f "$file" | head -n 1; done
于 2010-07-27T03:40:41.033 回答
3

它按照您的要求工作。

head完成了它的工作,打印了一行,然后退出了。然后在尝试写入封闭管道zcat的主持下运行,并因其努力而收到致命的 SIGPIPE。xargs让它的孩子死了,xargs 报告了为什么。

要获得所需的行为,您需要find -exec ... 构造或自定义zhead给 xargs。

添加了我在冰箱后面发现的垃圾代码

#!/usr/bin/python

"""zhead - poor man's zcat file... | head -n
   no argument error checking, prefers to continue in the face of
   IO errors, with diagnostic to stderr

   sample usage: find ... | xargs zhead.py -1"""

import gzip
import sys

if sys.argv[1].startswith('-'):
    nlines = int(sys.argv[1][1:])
    start = 2
else:
    nlines = 10
    start = 1

for zfile in sys.argv[start:]:
    try:
        zin = gzip.open(zfile)
        for i in range(nlines):
            line = zin.readline()
            if not line:
                break
            print line,
    except Exception as err:
        print >> sys.stderr, zfile, err
    finally:
        try:
            zin.close()
        except:
            pass

它在大约一分钟内处理了 /usr/share/man 中的 10k 个文件。

于 2010-07-27T03:21:50.177 回答
2

如果您安装了 GNU Parallel http://www.gnu.org/software/parallel/

find . -name '*.gz' | parallel 'zcat {} | head -n1'

在http://www.youtube.com/watch?v=OpaiGYxkSuQ观看 GNU Parallel 的介绍视频

于 2010-08-09T18:48:54.613 回答
0
zcat -r * 2>/dev/null | awk -vRS= -vFS="\n" '{print $1}'
于 2010-07-27T02:30:18.610 回答