regex - 解释手册中的一段

Question

我正在尝试运行一些生物信息学软件（TE Displayer），但它根本不起作用。我认为问题可能在于软件如何识别 FASTA 标头。从文档中可以看出。

标题行中的序列标识符采用“\w(1,10)\d(2,9)”的模式，意思是“单词字符 (1-10) 后跟数字 (2-9)”，所以尽量避免标题行中的非标识符短语（例如“Build04”）。例如标题行 ">OrganismX Accession AC000282, build0.4" 很好，但不是 ">OrganismX Contig WX000282, Build04" 。因此，“>Oryza sativa Chromosome11”也可以，因为“Chromosome11”将被识别为标识符。

有人可以解释“\w(1,10)\d(2,9)”的确切用法吗？我将其理解为总共最多 12 个字符的任何单词，但它必须以两位数结尾。所以我不明白 Build0.4 怎么好，而 Build04 不好。

干杯!

score 5 · Accepted Answer

单独的序列标识符应该与模式匹配，因此在中">OrganismX Accession AC000282, build0.4"，它的 theAC000282必须与正则表达式匹配，而不是Build0.4。

\w(1,10)\d(2,9)表示匹配一到十个单词字符，即任何一个a-z A-Z 0-9 _，后跟二到九位数字。

因为Build04会被那个模式匹配并且它不是序列标识符，所以建议避免。 build0.4将不匹配该模式，因为它包含 a .，所以很好。

score 1 · Accepted Answer

扩展 MikeM 所说的内容-您正试图让您的脚本识别AC000282. 上面的正则表达式将识别该字符序列。序列标识符\w(1,10)\d(2,9)表示“查找 1 到 10 个单词字符，后跟 2 到 9 个数字字符。然后，正则表达式将识别Build04为有 5 个单词字符 (BUILD)，后跟 2 个数字字符 (04)，但它不会识别Build0.4为.内部Build0.4会告诉正则表达式它不会被使用。

regex - 解释手册中的一段

2 回答 2

Related

Reference