我编写了一个 awk 脚本来分析我的表格数据 - 我正在计算 p 值和 log2 优势比。
这是我拥有的数据表的示例。
标签 值 1 值 2 标签1 9 6 标签1 7 6 标签1 1 6 标签2 5 7 标签2 3 7 标签2 8 7
对于每个标签 ( Label1/2
),我计算了多少次value1 > value2
并将这个数字除以Label
观察到的总次数 - 我得到 p 值。
除此之外,我比较了它们的 log2 比率。
这是我的 awk 脚本。
awk '{a[$1]=$1}; ($2>=$3) {c++}; {sum+=$2} END
{print c/NR,log($3/(sum/NR))/log(2),a[$1]}'
这是我得到的结果
0.666667 0.0824622 标签1
Column1 是 p 值;第 2 列是优势比;第 3 列是标签。
问题是我不知道如何对两者应用这个计算Labels
——我只得到第一个的结果。
我的问题是 - 如何为第 1 列中的每个唯一字段迭代这样的 awk 函数(Label1/2
)