所以这个问题困扰着我,我还有一百万个其他项目要做,所以我希望能解决这个问题。到目前为止,我还没有找到答案。看起来很简单。我用了:
awk '$1' merged_counts.txt |sort|uniq -d|wc
得到216行。但是,这个数字是不正确的。如果我使用
more merged_counts.txt|cut -f 1|sort|uniq -d|wc
我得到 271 行,这是正确的。如果我使用
awk '{print $1}' merged_counts.txt |sort|uniq -d|wc
但是,我也得到了 271 行,然后我也丢失了其余的字段。我无法弄清楚为什么它在看似基本的事情上表现得如此。感谢您的任何帮助/建议。当然,我必须忽略一些东西。
文件示例:
B3GALT1 72 128 65 124 87 118 102 117 38 106 87 115 27 20 89 30
AMY1A 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
PSENEN 654 459 648 462 508 399 537 532 696 460 625 473 621 322 633 434
基因“AMY1A”是在两条 DNA 链上注释的基因之一,因此它在我的文件中出现了两次。