7

我有一个非常大的文件,我需要从中删除特定的行(行号 941573 )

我对这个环境有点陌生,但我一直在谷歌搜索这个问题无济于事。

我已经尝试过使用 sed 命令,但它似乎不起作用

sed -e '941572,941574d' filenameX > newfilenameY

我也试过

sed -e '941573d' filenameX > newfilenameY

然而,“newfilenameY”文件和原始文件“filenameX”都仍然包含我要删除的行。这是一个 fastq 文件,虽然我不明白这会有什么不同。就像我说我是 unix 新手,所以也许我弄错了 sed 命令

4

3 回答 3

8

d删除一行/行。所以你的第二种方法有效。

$ sed '941573d' input > output

长示例:

% for i in $(seq 1000000)
do
echo i >> input
done
% wc -l input
1000000 input
% sed '941573d' input > output
% wc -l output
999999 output
% diff -u input output                                      :(
--- input       2012-10-22 13:22:41.404395295 +0200
+++ output      2012-10-22 13:22:43.400395358 +0200
@@ -941570,7 +941570,6 @@
 941570
 941571
 941572
-941573
 941574
 941575
 941576

简短的例子:

% cat input
foo
bar
baz
qux
% sed '3d' input > output
% cat output             
foo
bar
qux
于 2012-10-22T11:15:02.097 回答
1

以下是如何从文件中删除一行或多行。

句法:

sed '{[/]<n>|<string>|<regex>[/]}d' <fileName>      
sed '{[/]<adr1>[,<adr2>][/]d' <fileName>
/.../=delimiters
n = line number
string = string found in in line
regex = regular expression corresponding to the searched pattern
addr = address of a line (number or pattern )
d = delete
于 2012-10-22T11:16:34.800 回答
0

我生成了一个包含 1000000 行的测试文件并尝试了你的sed -e '941573d' filenameX > newfilenameY,它在 Linux 上运行良好。

也许我们还有一些其他的误解。行号从 1 开始计数,而不是从 0 开始。如果您从零开始计数,您会发现缺少第 941572 行。

你试过diff filenameX newfilenameY吗?这将突出任何意想不到的变化。

我对 FASTQ 格式了解不多,但您确定我们谈论的是文本文件行号,而不是序列号吗?

一般行长度限制为 4096 字节,您的任何行是否超过该长度?(这不太可能,但我认为值得提出这个问题)。

于 2012-10-22T16:06:11.880 回答