我有一个数据格式,如:
ATOM 124 N GLU B 12
ATOM 125 O GLU B 12
ATOM 126 OE1 GLU B 12
ATOM 127 C GLU B 12
ATOM 128 O GLU B 14
ATOM 129 N GLU B 14
ATOM 130 OE1 GLU B 14
ATOM 131 OE2 GLU B 14
ATOM 132 CA GLU B 14
ATOM 133 C GLU B 15
ATOM 134 CA GLU B 15
ATOM 135 OE2 GLU B 15
ATOM 136 O GLU B 15
.....100+ lines
从这里开始,我想根据col[5]
(从 0 开始的列数)和col[2]
. 如果或恰好只有一次value
,则要丢弃数据集。但是对于if和both 存在的每个值,它将被保留。
过滤后的所需数据: col[5]
OE1
OE2
col[5]
OE1
OE2
ATOM 128 O GLU B 14
ATOM 129 N GLU B 14
ATOM 130 OE1 GLU B 14
ATOM 131 OE2 GLU B 14
ATOM 132 CA GLU B 14
我试过使用search_string
像:
for item in stored_list:
search_str_a = 'OE1'+item[3]+item[4]+item[5]
search_str_b = 'OE2'+item[3]+item[4]+item[5]
target_str = item[2]+item[3]+item[4]+item[5]
这有助于col
在搜索OE1
or时保持其他相似OE2
,但如果其中一个(或两者)丢失,则无助于过滤和消除。
任何想法在这里都会非常好。