python - 检查无效观察

Question

我需要检查并删除那些在表位序列（DF 中的列）中包含任何非特异性氨基酸字母（即 B、J、X 或 Z）的观察结果。

表位序列是数据框中的一列，其值类似于下面给出的样本。我需要检查该序列是否包含字母 B、J、X、Z，如果是，则删除所有相应的记录。

表位序列：

ACIIERKNRGELEYT
CDLNENQTWVDNGC
CASQEFDYEFDDVNE
DDDSYTTKRKF

我拥有的当前代码正在单独检查每个代码，这意味着编写 4 行代码。有没有更好的方法来做到这一点，即所有 4 行代码在一行中使用 OR 运算符？如果是，如何？

当前代码：

final_df.drop(final_df[final_df['epit_seq'].str.contains('B')].index, inplace=True)
final_df.drop(final_df[final_df['epit_seq'].str.contains('J')].index, inplace=True)
final_df.drop(final_df[final_df['epit_seq'].str.contains('X')].index, inplace=True)
final_df.drop(final_df[final_df['epit_seq'].str.contains('Z')].index, inplace=True)

score 1 · Accepted Answer

由于contains默认情况下允许使用正则表达式，因此您可以缩短为如下所示的一行。

ignore = '|'.join(['B', 'J', 'X', 'A']) # use regular expression with or on substrings
final_df.drop(final_df[final_df['epit_seq'].str.contains(ignore)].index, inplace=True)

python - 检查无效观察

1 回答 1

Related

Reference