“fasta”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

64 浏览

replace - 删除所有包含短语“随机”的序列

这就是我的输入的样子：

我想删除所有包含短语“随机”的序列 - 序列始终以“>”开头，并在另一个序列开始时结束。

在这种情况下，我想获得 3 个文件：

一个.txt

c.txt

d.txt

现在，我不知何故不能强迫 sed 做我想做的事。我从这个开始：

什么不起作用。非常感谢你。

2013-02-19T08:52:13.570

0 投票

2 回答

57 浏览

regex - 解释手册中的一段

我正在尝试运行一些生物信息学软件（TE Displayer），但它根本不起作用。我认为问题可能在于软件如何识别 FASTA 标头。从文档中可以看出。

标题行中的序列标识符采用“\w(1,10)\d(2,9)”的模式，意思是“单词字符 (1-10) 后跟数字 (2-9)”，所以尽量避免标题行中的非标识符短语（例如“Build04”）。例如标题行 ">OrganismX Accession AC000282, build0.4" 很好，但不是 ">OrganismX Contig WX000282, Build04" 。因此，“>Oryza sativa Chromosome11”也可以，因为“Chromosome11”将被识别为标识符。

有人可以解释“\w(1,10)\d(2,9)”的确切用法吗？我将其理解为总共最多 12 个字符的任何单词，但它必须以两位数结尾。所以我不明白 Build0.4 怎么好，而 Build04 不好。

干杯!

regex bioinformatics fasta

2013-02-27T19:50:15.663

0 投票

2 回答

3009 浏览

unix - 使用 Unix 命令行工具修改 FASTA 标头

我再次陷入修改文本的困境。我想更改大型文本文件，例如：

到

我一直在使用sed '/^>/s/[^ ]* />/'which 删除第一部分（>hg19_ct_UserTrack_3545_690），但我真的坚持如何删除range=. 我尝试了各种组合，//但grep没有任何乐趣。

谢谢

unix sed awk grep fasta

2013-03-01T10:39:54.900

0 投票

5 回答

1302 浏览

python - 使用python从fasta文件中删除句点

我是python新手（使用2.7），我正在尝试获取对齐序列的fasta文件并删除句点（。）和破折号（-）。我正在尝试编写一个循环，以便 python 遍历每一行并用任何内容替换句点和破折号。这是我得到的脚本（当我运行它时，它会删除句点和破折号，但会留下空格）：

任何建议将不胜感激！仁

python fasta

2013-03-01T20:13:16.653

0 投票

3 回答

120 浏览

perl - 如何解析文件以进行匹配，并在 Perl 中打印匹配字符串之前的字符串？

我正在尝试解析 GBK 文件。基本上，我需要返回与模式匹配的基因的基因座标签和产品名称。因此，如果我想搜索所有预测的基因产物的主题，搜索词“预测”将返回：

我已经能够返回，/product但我无法弄清楚如何“向后”解析以获取/locus_tag.

这是我到目前为止所拥有的：

> 示例.txt

perl parsing fasta

2013-03-04T20:32:40.410

0 投票

1 回答

626 浏览

regex - AWK：将行写入多个文件

我正在尝试使用 awk 从 FASTA 文件中提取序列。

例如，文件看起来像这样，它包含 703 个序列。我想将它们中的每一个提取到单独的文件中。

我正在使用这个 awk 脚本：

...这有效，但仅适用于第 16 个，然后我收到一条错误消息；

regex awk substring fasta

2013-03-21T17:48:38.993

0 投票

1 回答

2710 浏览

regex - 如何在标题行与另一个文件中的列表匹配的文件中提取fasta序列？

我是 Perl 的新手。我正在尝试从一个与另一个文件中的行匹配的文件中提取 fasta 序列。两个示例文件如下：

文件1.fasta：

>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA

>gene_69|111_nt|+|75846|75956 ATGCCGTTGCCGTCGCGCATCGCGGCGGCCGTGCGCGGCGCGCATGCATACGCCGGCACGGCCGATGCGCGCGCGACGCGCAAACTGCACGCGGCGCGGGATTTGTGTTGA

>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA

>gene_90|141_nt|-|99016|99156
TTGGAAGGGCGCTTTCCGCGTGCGAGTCGTCTGACGCAGCGTTGCACGGTCTGGTCGAATCGCGAGCTTCATCGCTGGATGGCCGATCCGTTGAACTATCGCGCTGTCGACGCGGCGAACCAGACGACGGAGGGCGCGTAA

文件2.列表：

somewordsinfront, >gene_44|somewordsattheback

blablabla，>gene_88|blablablablabla

我期望的输出如下：

>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA

>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA

我怎样才能做到这一点？提前致谢！:)

regex perl extract fasta

2013-04-06T08:34:26.257

0 投票

9 回答

23754 浏览

unix - 删除 FASTA 文件中的换行符

我有一个 fasta 文件，其中的序列用换行符分解。我想删除换行符。这是我的文件的示例：

我想把它转换成这个：

我在这个网站上找到了一个潜在的解决方案，如下所示：

但是，这会在每个条目之间放置一个额外的换行符，因此文件如下所示：

我是个 awk 菜鸟，但我尝试修改命令。我的猜测是if (p){print "\n";}罪魁祸首......可能print "\n"是添加两个换行符。我不知道如何只添加一个换行符……这可能很容易，但就像我说的，我是个菜鸟。这是我的（不成功的）解决方案：

但是，这会在文件的开头添加一个空行，因为它总是在打印第一个入藏号之前打印一个新行：

任何人都有解决方案以正确格式获取我的文件？谢谢！

unix awk newline bioinformatics fasta

2013-04-06T23:14:30.843

0 投票

1 回答

791 浏览

regex - Perl：如何根据基因数和核苷酸长度提取序列？

我有2个文件，如下：

文件 1.txt：

文件2.fasta：

>gene_735|GeneMark.hmm|237_nt|+|798985|799221 TTGTGGTTCGTGCCGCGCGACGCGTTGCGTCTGCAAACGCCCGACGAAGACATCGCGACCTATCTGTTCAACAAGCATGTGATTCGGCATCGGTTCTGTCCGACCTGCGGGATTCATCCGTTCGCGGAAGGCACGGACCCGAAGGGCAACGCGATGGCGGCCGTCAATCTTCGCTGCGTCGACGGCGTCGATCTCGACGCGTTGAGCGTCCGCCATTTCGACGGGCGCGCGCTCTGA >gene_579|GeneMark.hmm|237_nt|+|667187|667423 ATGTACCACGGCGCCGAATTTGCCGCTGCCAAGGGCATGCGCTGGCTGCGAGATGCCGCCAACGGCTCTGCCTTCATCGCACCGGGCAGTCCGTGGCAAAACGGTTTCGTCGAGCGTTTCAACGGCAAGCTGCATGACGAATTGCTGAACCGGGAATGGTTCCGCGGCCGTGCCGAGACCAAGATGCTCATCGAACGCTCCGGCTACGGTCCGTCGAGTCTGACCGGATTCCGATGA >gene_1876|GeneMark.hmm|234_nt|-|2168498|2168731 ATGCTGTTCTTTTCGCGCGCGGGCGTGTCGCGTGCGGCCGGCGGCCAATCATGCGGCGAGTCGTTTTGTCGCGGCTCGCGGCGCTTGCCGACGTTGGAATCGCGCGCGCCGATGCGCGGATCGGGGCGGCAACGTTTGCGTATGAGGAATGATGCGTTTGCGCATCGGGAATGGGCGCCTCGCCCCGGTTTCGCCGCGATTCCGCCCGACTCGAGGCAGTCGTTTTTCCGCTAA >gene_3097|GeneMark.hmm|237_nt|-|3467022|3467258 GTGTCGAACGAACGTCGCGGCGAACGGCCGCTGCGGGCATCGCCGCAGGACGTCACACGGCGAACGTCGCGCGCGATCCTCGGCGGCCGCGAACGTGGGCCGTCCCGTGGCACGTTCGGCTCGCTCGGCATGGCGAACGACCGCCGCATCGCGCATCGCCGTCGCGCGGCCTCCAAAAAAACGGCGGTCAGCGACCGCCGGCTTTGGCCGAAACCGATGCGTCGTACGAATCAGTGA >gene_988|GeneMark.hmm|237_nt|+|1121027|1121263hmm|237_nt|-|3467022|3467258 GTGTCGAACGAACGTCGCGGCGAACGGCCGCTGCGGGCATCGCCGCAGGACGTCACACGGCGAACGTCGCGCGCGATCCTCGGCGGCCGCGAACGTGGGCCGTCCCGTGGCACGTTCGGCTCGCTCGGCATGGCGAACGACCGCCGCATCGCGCATCGCCGTCGCGCGGCCTCCAAAAAAACGGCGGTCAGCGACCGCCGGCTTTGGCCGAAACCGATGCGTCGTACGAATCAGTGA >gene_988|GeneMark.hmm|237_nt|+|1121027|1121263hmm|237_nt|-|3467022|3467258 GTGTCGAACGAACGTCGCGGCGAACGGCCGCTGCGGGCATCGCCGCAGGACGTCACACGGCGAACGTCGCGCGCGATCCTCGGCGGCCGCGAACGTGGGCCGTCCCGTGGCACGTTCGGCTCGCTCGGCATGGCGAACGACCGCCGCATCGCGCATCGCCGTCGCGCGGCCTCCAAAAAAACGGCGGTCAGCGACCGCCGGCTTTGGCCGAAACCGATGCGTCGTACGAATCAGTGA >gene_988|GeneMark.hmm|237_nt|+|1121027|1121263
ATGACCTTGTCAGGCAACATCAAGGACGGCGACTGGACGGTCGAGGTGACGACATCGCCGGTGCAGGGCGGTTACGTGTGCGACATCGAGGTGATGCACGGCGCGCCGGGCGGCGCGTTCCGGCACGCGTTCCGGCACGGCGGCACTTATCCGGCCGAGCGCGACGCGATGATCGAGGGGCTGCGCGCGGGCATGACCTGGATCGAGCTGAAGATGTCGAAAGCATTCAATCTGTAA >gene_97|GeneMark.hmm|105_nt|+|90122|90226 GTGACGCGTTTCGCGACGCGCGTCGATGGGGCGGGCGCGAAACCCGTTCGCCGCGATGCGGCGGACGGGGTATGGCCGAGCGCCGTCCGTCGCGGCGAGAGTTGA >gene_97|GeneMark.hmm|183_nt|-|107002|107184 ATGGAGGCAATCGTGATCGAGCAAGTGATACTGGGCGTCTTTCTCGTACTGCCGCTTCTCATCGTCGCGGTGCTGTACTCCGACGAACTCTGGCAAGAACACCGCCTGCAGCATCCGCGCGACGAGCACACGCCACATATCGACTGGCGTCATCCGTGGCGGATCCTGCGGCGAGGGCACTAA >gene_97|GeneMark.hmm|189_nt|-|98624|98812 GTGAAATACACGAGCGACCATTACGCGGGCGTCAAATTTGGCGCGCTGTACGGGTTCTCGAACGCGGCGAACTTCGCCGACAACCGCGCTCGCCGGCGCATGCGCGGCGTTCGCATACGCGATCGGCAAAAGCGGCGTGATGTGCGGTTGCCTGCCGCGCTCGCGCTATGCGCGGCACGCCATCGATGA >gene_97|GeneMark.hmm|234_nt|+|105494|105727 ATGAAGATTCAAATCGCCATTGTTTATTTTGTCGCCCGTCACGCAAACGAGCAGGCGCGAAGCGGATCGGCGCGCATTGGCGAAGAGCCGGCGCGCATCGGCATCGCGCTCGCGCGACACATGCGCGCCGCGCGCGGCCGGTCGACGCCGGATTCGCCTGTCGATCGATCCGGTGCGCCCCGAGCCGATGAGCGGTACGCTTCGGCGCGCGCGCGACACGCGCGACACGCGTGA >gene_979|GeneMark.hmm|225_nt|-|1115442|1115666 TTGATCGACGCGCGGGGCCGGCCGGGCCGCGGGGTATCGAAGGCGATCGACGCGCAACACGAATCGCCGCCGCGCGCCGAAACCTCGCTATGCGCGTCGCGCGCACGCGCGGCCGGCGGCGCACGCGCGGGTGTGCGCGGGCCGGCGGCGCGGCCGCTCGCACTGCGCGACCGCTCGCGCGCACGCCTTCCTCGGCACGCGCCGGGAATCCCGGCCCTTCAATGAhmm|234_nt|+|105494|105727 ATGAAGATTCAAATCGCCATTGTTTATTTTGTCGCCCGTCACGCAAACGAGCAGGCGCGAAGCGGATCGGCGCGCATTGGCGAAGAGCCGGCGCGCATCGGCATCGCGCTCGCGCGACACATGCGCGCCGCGCGCGGCCGGTCGACGCCGGATTCGCCTGTCGATCGATCCGGTGCGCCCCGAGCCGATGAGCGGTACGCTTCGGCGCGCGCGCGACACGCGCGACACGCGTGA >gene_979|GeneMark.hmm|225_nt|-|1115442|1115666 TTGATCGACGCGCGGGGCCGGCCGGGCCGCGGGGTATCGAAGGCGATCGACGCGCAACACGAATCGCCGCCGCGCGCCGAAACCTCGCTATGCGCGTCGCGCGCACGCGCGGCCGGCGGCGCACGCGCGGGTGTGCGCGGGCCGGCGGCGCGGCCGCTCGCACTGCGCGACCGCTCGCGCGCACGCCTTCCTCGGCACGCGCCGGGAATCCCGGCCCTTCAATGAhmm|234_nt|+|105494|105727 ATGAAGATTCAAATCGCCATTGTTTATTTTGTCGCCCGTCACGCAAACGAGCAGGCGCGAAGCGGATCGGCGCGCATTGGCGAAGAGCCGGCGCGCATCGGCATCGCGCTCGCGCGACACATGCGCGCCGCGCGCGGCCGGTCGACGCCGGATTCGCCTGTCGATCGATCCGGTGCGCCCCGAGCCGATGAGCGGTACGCTTCGGCGCGCGCGCGACACGCGCGACACGCGTGA >gene_979|GeneMark.hmm|225_nt|-|1115442|1115666 TTGATCGACGCGCGGGGCCGGCCGGGCCGCGGGGTATCGAAGGCGATCGACGCGCAACACGAATCGCCGCCGCGCGCCGAAACCTCGCTATGCGCGTCGCGCGCACGCGCGGCCGGCGGCGCACGCGCGGGTGTGCGCGGGCCGGCGGCGCGGCCGCTCGCACTGCGCGACCGCTCGCGCGCACGCCTTCCTCGGCACGCGCCGGGAATCCCGGCCCTTCAATGAhmm|225_nt|-|1115442|1115666 TTGATCGACGCGCGGGGCCGGCCGGGCCGCGGGGTATCGAAGGCGATCGACGCGCAACACGAATCGCCGCCGCGCGCCGAAACCTCGCTATGCGCGTCGCGCGCGCGCGGCCGGCGGCGCACGCGCGGGTGTGCGCGGGCCGGCGGCGCGGCCGCTCGCACTGCGCGACCGCTCGCGCGCCATCCGCCTTCGGCATGCGCGGGATChmm|225_nt|-|1115442|1115666 TTGATCGACGCGCGGGGCCGGCCGGGCCGCGGGGTATCGAAGGCGATCGACGCGCAACACGAATCGCCGCCGCGCGCCGAAACCTCGCTATGCGCGTCGCGCGCGCGCGGCCGGCGGCGCACGCGCGGGTGTGCGCGGGCCGGCGGCGCGGCCGCTCGCACTGCGCGACCGCTCGCGCGCCATCCGCCTTCGGCATGCGCGGGATC

我期望的输出是：

>gene_579|GeneMark.hmm|237_nt|+|667187|667423 ATGTACCACGGCGCCGAATTTGCCGCTGCCAAGGGCATGCGCTGGCTGCGAGATGCCGCCAACGGCTCTGCCTTCATCGCACCGGGCAGTCCGTGGCAAAACGGTTTCGTCGAGCGTTTCAACGGCAAGCTGCATGACGAATTGCTGAACCGGGAATGGTTCCGCGGCCGTGCCGAGACCAAGATGCTCATCGAACGCTCCGGCTACGGTCCGTCGAGTCTGACCGGATTCCGATGA >gene_3097|GeneMark.hmm|237_nt|-|3467022|3467258 GTGTCGAACGAACGTCGCGGCGAACGGCCGCTGCGGGCATCGCCGCAGGACGTCACACGGCGAACGTCGCGCGCGATCCTCGGCGGCCGCGAACGTGGGCCGTCCCGTGGCACGTTCGGCTCGCTCGGCATGGCGAACGACCGCCGCATCGCGCATCGCCGTCGCGCGGCCTCCAAAAAAACGGCGGTCAGCGACCGCCGGCTTTGGCCGAAACCGATGCGTCGTACGAATCAGTGA >gene_988|GeneMark.hmm|237_nt|+|1121027|1121263
ATGACCTTGTCAGGCAACATCAAGGACGGCGACTGGACGGTCGAGGTGACGACATCGCCGGTGCAGGGCGGTTACGTGTGCGACATCGAGGTGATGCACGGCGCGCCGGGCGGCGCGTTCCGGCACGCGTTCCGGCACGGCGGCACTTATCCGGCCGAGCGCGACGCGATGATCGAGGGGCTGCGCGCGGGCATGACCTGGATCGAGCTGAAGATGTCGAAAGCATTCAATCTGTAA >gene_97|GeneMark.hmm|183_nt|-|107002|107184 ATGGAGGCAATCGTGATCGAGCAAGTGATACTGGGCGTCTTTCTCGTACTGCCGCTTCTCATCGTCGCGGTGCTGTACTCCGACGAACTCTGGCAAGAACACCGCCTGCAGCATCCGCGCGACGAGCACACGCCACATATCGACTGGCGTCATCCGTGGCGGATCCTGCGGCGAGGGCACTAA >gene_97|GeneMark.hmm|189_nt|-|98624|98812 GTGAAATACACGAGCGACCATTACGCGGGCGTCAAATTTGGCGCGCTGTACGGGTTCTCGAACGCGGCGAACTTCGCCGACAACCGCGCTCGCCGGCGCATGCGCGGCGTTCGCATACGCGATCGGCAAAAGCGGCGTGATGTGCGGTTGCCTGCCGCGCTCGCGCTATGCGCGGCACGCCATCGATGA

基因编号为 97 的序列有 4 个，但长度不同。我希望仅将 file1.txt 中列出的具有正确基因长度的序列输出到 output.fasta 文件中。到目前为止我所做的如下（但失败并有一些错误）：

谁能给我一些指导来纠正代码？或者有没有更好的方法来做到这一点？任何帮助将不胜感激！谢谢！:)

regex perl fasta

2013-04-11T16:51:12.843

0 投票

2 回答

747 浏览

perl - 匹配 fasta 文件中的标头并使用新名称命名

我有一个带有不同标题的fasta文件，像这样..

等等..现在我想把名字改成这样

等等.. 我写了一个 perl 脚本来做到这一点，但它不输出任何东西。我做错了什么。

除了更改 fasta 标头名称并输出到新文件之外，我如何在每个 fasta 标头下也包含序列。在此先感谢.... Upendra

perl header fasta

2013-04-19T07:32:17.103

问题标签 [fasta]

Reference