0

我在文本文件中有很多未排序的数据,格式如下:

1.0 10
1.8 10
1.1 10
1.9 20
2.8 20
2.1 20
2.9 20
...

对于第二列中的每个值,我想获取第一列中值的间隔。所以对于上面的例子,结果应该是

1.0 1.8 10
1.9 2.9 20

如何使用 c/c++、awk 或其他 linux shell 工具来做到这一点?

4

4 回答 4

1

这个单线应该适合你:

 awk '!($2 in i){i[$2]=$1}{a[$2]=$1}END{for(x in i)print i[x],a[x],x}' file

输出:

1.0 1.8 10
1.9 2.9 20
于 2013-05-06T14:38:05.537 回答
1

你可以使用这个 awk:

awk '{
        if (!($2 in nmin) || $1<nmin[$2])
            nmin[$2]=$1;
         else if ($1>=nmax[$2])
            nmax[$2]=$1
     }
     END {
        for (a in nmin)
           print nmin[a], nmax[a], a
     }
' inFile
于 2013-05-06T14:40:29.233 回答
0

我认为这应该有效:

{ read vStart int &&
while read vNext nextInt; do
  if [ $int -ne $nextInt ]; then
    echo "$vStart $v $int";
    vStart=$vNext;
  fi

  v=$vNext;
  int=$nextInt;
done &&
echo "$vStart $v $int"; }
于 2013-05-06T14:51:21.043 回答
0

要添加另一种选择,您也可以在 R 中执行此操作:

d.in <- read.table(file = commandArgs(trailingOnly = T)[1]);
write.table(
    aggregate(V1 ~ V2, d.in, function (x) c(min(x),max(x)))[,c(2,1)]
    , row.names = F
    , col.names = F
    , sep = "\t");

然后只需使用以下命令调用此脚本Rscript

$ Rscript script.R data.txt 
1       1.8     10
1.9     2.9     20
于 2014-04-18T16:04:36.120 回答