我在文本文件中有很多未排序的数据,格式如下:
1.0 10
1.8 10
1.1 10
1.9 20
2.8 20
2.1 20
2.9 20
...
对于第二列中的每个值,我想获取第一列中值的间隔。所以对于上面的例子,结果应该是
1.0 1.8 10
1.9 2.9 20
如何使用 c/c++、awk 或其他 linux shell 工具来做到这一点?
这个单线应该适合你:
awk '!($2 in i){i[$2]=$1}{a[$2]=$1}END{for(x in i)print i[x],a[x],x}' file
输出:
1.0 1.8 10
1.9 2.9 20
你可以使用这个 awk:
awk '{
if (!($2 in nmin) || $1<nmin[$2])
nmin[$2]=$1;
else if ($1>=nmax[$2])
nmax[$2]=$1
}
END {
for (a in nmin)
print nmin[a], nmax[a], a
}
' inFile
我认为这应该有效:
{ read vStart int &&
while read vNext nextInt; do
if [ $int -ne $nextInt ]; then
echo "$vStart $v $int";
vStart=$vNext;
fi
v=$vNext;
int=$nextInt;
done &&
echo "$vStart $v $int"; }
要添加另一种选择,您也可以在 R 中执行此操作:
d.in <- read.table(file = commandArgs(trailingOnly = T)[1]);
write.table(
aggregate(V1 ~ V2, d.in, function (x) c(min(x),max(x)))[,c(2,1)]
, row.names = F
, col.names = F
, sep = "\t");
然后只需使用以下命令调用此脚本Rscript
:
$ Rscript script.R data.txt
1 1.8 10
1.9 2.9 20