1

我有这种类型的数据(重复多次):

@@@FFDFFHHHHHJJFFHGIJJJJGI   
@M00332:5:000000000-A0TVJ:1:1:13498:26189 2:N:0:1   
ACCACAGCCGCTGCCCATTTGCATAA 
+

使用 regexp 我试图选择包含特定字符串的所有行cagccgctgcccatttg。我是一个正则表达式新手,所以我试过这个:\w{3,}(cagccgctgcccatttg)\w{3,}

任何帮助深表感谢。

干杯西蒙

4

1 回答 1

3

据我了解,您想收集包含单个子序列的所有序列。我不知道您使用的是什么环境,但这应该以一种非常简单的方式返回您正在寻找的任何序列。

([ACGT]{3,}CAGCCGCTGCCCATTTG[ACGT]{3,})

括号是一个字符类,这意味着它匹配内部的任何单个字符。你不想匹配 \w,你只想匹配一个字符,如果它是你正在寻找的 4 个字符之一。此外,您可以使用括号覆盖整个正则表达式以获取整个匹配项。

于 2012-07-16T18:07:17.187 回答