2

我正在尝试运行一些生物信息学软件(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别 FASTA 标头。从文档中可以看出。

标题行中的序列标识符采用“\w(1,10)\d(2,9)”的模式,意思是“单词字符 (1-10) 后跟数字 (2-9)”,所以尽量避免标题行中的非标识符短语(例如“Build04”)。例如标题行 ">OrganismX Accession AC000282, build0.4" 很好,但不是 ">OrganismX Contig WX000282, Build04" 。因此,“>Oryza sativa Chromosome11”也可以,因为“Chromosome11”将被识别为标识符。

有人可以解释“\w(1,10)\d(2,9)”的确切用法吗?我将其理解为总共最多 12 个字符的任何单词,但它必须以两位数结尾。所以我不明白 Build0.4 怎么好,而 Build04 不好。

干杯!

4

2 回答 2

5

单独的序列标识符应该与模式匹配,因此在 中">OrganismX Accession AC000282, build0.4",它的 theAC000282必须与正则表达式匹配,而不是Build0.4

\w(1,10)\d(2,9)表示匹配一到十个单词字符,即任何一个a-z A-Z 0-9 _,后跟二到九位数字。

因为Build04会被那个模式匹配并且它不是序列标识符,所以建议避免。 build0.4将不匹配该模式,因为它包含 a .,所以很好。

于 2013-02-27T19:58:41.913 回答
1

扩展 MikeM 所说的内容-您正试图让您的脚本识别AC000282. 上面的正则表达式将识别该字符序列。序列标识符\w(1,10)\d(2,9)表示“查找 1 到 10 个单词字符,后跟 2 到 9 个数字字符。然后,正则表达式将识别Build04为有 5 个单词字符 (BUILD),后跟 2 个数字字符 (04),但它不会识别Build0.4.内部Build0.4会告诉正则表达式它不会被使用。

于 2013-02-27T20:08:01.757 回答