我在 txt 文件中进行数据操作时遇到问题。我的文件目前看起来像这样:
HG02239 -23.42333333
NA06985NA06985 -20.125
NA06991NA06991 -20.92
这显示了我的一些制表符分隔的数据。一半的条目是正确的七字符(字母字母数字数字数字数字)格式,但有些是加倍的。我想进入第二列(由于某种原因,第一列是空的!)并删除字符串中的重复项,以便读取
HG02239 -23.42333333
NA06985 -20.125
NA06991 -20.92
我不知道如何在每列的基础上使用 sed/awk 执行此操作。我觉得我应该可以写一个正则表达式,但是因为数据是重复的,我不想丢失字符串的前半部分;而且我不知道如何剪切特定的列,或者我只会删除第 7 个字符。非常感谢任何帮助!