我正在尝试运行一些生物信息学软件(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别 FASTA 标头。从文档中可以看出。
标题行中的序列标识符采用“\w(1,10)\d(2,9)”的模式,意思是“单词字符 (1-10) 后跟数字 (2-9)”,所以尽量避免标题行中的非标识符短语(例如“Build04”)。例如标题行 ">OrganismX Accession AC000282, build0.4" 很好,但不是 ">OrganismX Contig WX000282, Build04" 。因此,“>Oryza sativa Chromosome11”也可以,因为“Chromosome11”将被识别为标识符。
有人可以解释“\w(1,10)\d(2,9)”的确切用法吗?我将其理解为总共最多 12 个字符的任何单词,但它必须以两位数结尾。所以我不明白 Build0.4 怎么好,而 Build04 不好。
干杯!