我面临以下问题,尚未找到解决方案:
我正在开发一种用于序列分析的工具,该工具使用带有参考序列的文件并尝试在测试序列中找到这些参考序列之一。
问题是测试序列可能包含间隙(例如:)ATG---TCA
。我希望我的工具找到一个特定的参考序列作为测试序列的子串,即使参考序列被-
测试序列中的间隙 ( ) 打断。
例如:
我的参考序列之一:
a = TGTAACGAACGG
我的测试序列:
b = ACCT**TGT--CGAA-GG**AGT
(参考序列中的相应部分以粗体给出)
我虽然关于正则表达式并试图自己努力,但如果我没有错,正则表达式只会反过来起作用。因此,我需要将间隙位置作为正则表达式包含到参考序列中,然后将其映射到测试序列中。但是,我不知道测试序列中间隙的位置、长度和数量。我的想法是-
将测试序列字符串中的间隙位置(所以 all )交换为某种正则表达式或代表参考序列中任何其他字符的特殊字符。比我将未修改的参考序列与我修改的测试序列进行比较......不幸的是,我没有在 python 中找到一个用于字符串搜索的函数或一种可以做到这一点的正则表达式。
非常感谢!