我正在使用 prokka 注释文件,这些文件给了我在 uniprot 数据库中发现的基因的蛋白质产物。不幸的是,许多基因与多个非常相似的产品名称相关联,例如
1%2C2-phenylacetyl-CoA epoxidase%2C subunit A
1%2C2 phenylacetyl-CoA epoxidase%2C subunit A
1%2C2-phenylacetyl CoA epoxidase%2C subunit A
1%2C2-Phenylacetyl CoA Epoxidase%2C subunit A
而这些变体实际上是不同的产品
1%2C2-phenylacetyl-CoA epoxidase%2C subunit A
1%2C2-phenylacetyl-CoA epoxidase%2C subunit B
1%2C2-phenylacetyl-CoA epoxidase%2C subunit C
1%2C2-phenylacetyl-CoA epoxidase%2C subunit E
为了避免在将我的基因映射到它们各自的产品时遇到麻烦,我决定用“@”替换所有可能的歧义和有问题的字符,例如“-”“”“/”,并将所有字符串小写。
但是有没有办法搜索例如
1%2C2-Phenylacetyl CoA Epoxidase%2C subunit A
包括与标准 unix 工具(如 grep)密切相关的条目?到目前为止我找不到答案。