我已经看过这里和其他论坛,但找不到我的问题的答案。
我想为目标富集测序方法设计诱饵,并使用 MarkerMiner 搜索来自四个不同基因组的直系同源基因座的输出,其中
拟南芥作为参考。这些输出比对是每个拟南芥注释基因的单独 Fasta 文件,我的数据集中的序列与之对齐。
我已经运行了一个脚本来过滤掉那些被我的四个输入数据集中的至少两个支持为直系同源的基因座。
然而,现在,我被难住了。
我的比对很差,因为输入数据主要是 RNAseq,而参考也包含内含子。所以它看起来像这样:
AT01G1234567 ATCGATCGATGCGCGCTAGCTGAATCGATCGGATCGCGGTAGCTGGAGCTAGSTCGGATCGC MyData1
CGATGCGCGC-----------CGGATCGCGG---------------CGGATCGC
MyData2
CGCTGCGCGC------------GGATAGCGG--- ------------CGGATCCC
为了有效地设计诱饵,我现在需要从文件中提取所有对齐的部分,以便最终得到单独的文件;或在文件中单独对齐;对于在 MyData 和参考序列之间对齐的部分,排除了所有有间隙的部分。这些 fasta 文件大约有 1300 个,因此无法手动进行。我在 python 和 Linux 命令行工具方面有一些编程经验,但是我完全不知道如何去做。我会很感激一个提示,关于我可以使用什么样的工具或者我需要想出什么样的算法。谢谢你。干杯