问题标签 [bioperl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
838 浏览

perl - 使用 Bio::DB::EUtilities 从 pubmed 访问摘要

我正在使用 Bio::DB::EUtilities 来查询具有给定 PMID(Pubmed Id)的 Pubmed DB。

有没有办法直接访问对象(例如抽象)而不是写入文件响应并使用 XML::Twig 左右?

0 投票
0 回答
549 浏览

perl - 解析多记录 GenBank 文件

如果有人可以帮助我获得以下代码来输出输入文件(http://biopython.org/DIST/docs/tutorial/examples/ls_orchid.gbk)中所有记录的序列(包括 id),我会很高兴:

我希望看到一个由纯序列(最好带有标题)组成的输出,如下所示:

谢谢

0 投票
1 回答
275 浏览

multidimensional-array - Bioperl 将 $seq->id 推送到数组

我对 Perl 和 Bioperl 还很陌生,我正在尝试编写一个脚本来识别相同序列的实例。为了实现这一点,我设想了一个包含 2 个 infile 的脚本,第一个是 fasta 格式的多重对齐,第二个是附件文件,它将 fasta id 链接到其他相关信息。我的方法是通读 Bio::SeqIO 的多重比对,并将文件内容放在哈希中,其中序列是键,id 是值,或者在序列共享的情况下,id 数组是值.

我认为它应该看起来像这样:

"AATTTGTTGTTGTACC" => ('Seq1', 'Seq13'),

"TTTCTCTTTCCCAAAG" => 'Seq2',

目前,我相信我被卡住了,因为在序列共享的情况下尝试将第二个 id 推送到数组上时出错(即上面示例中的“Seq13”)。

这是我正在使用的测试多重对齐:

在我到目前为止编写的代码下方:

因此,我希望得到一些帮助

1) 我收到一个我不太理解的错误,但我认为这与 push 语句有关 --> 在 ht_sharing 中使用“strict refs”时不能使用字符串 ("Seq1") 作为 ARRAY ref。 pl 第 24 行,第 3 行。

2)当 if 循环外的 print 语句处于活动状态时,它会打印我认为应该的 id(即 Seq1),但在 if 循环内的 print 语句中,相同的调用 $seq->id 会产生一个引用(即 Bio ::Seq=HASH(0x19e7210)->id)。为什么是这样?我不明白为什么打印 $seq->id 在同一个while循环中有不同的输出。

如果有人能提供澄清,我将非常感激,当然,因为有人对最佳实践或解决问题的更好方法的评论仍然很陌生,也很棒。

干杯,安娜

0 投票
2 回答
708 浏览

regex - 当 DNA 序列中存在某种模式时,检索编码氨基酸

当 DNA 序列中存在某种模式时,我想检索编码氨基酸。例如,模式可以是:ATAGTA。所以,当有:

输入文件:

理想的输出将是一个表格,其中每个氨基酸的次数由模式编码。在序列 1 中,模式只编码一个氨基酸,但在序列 2 中,它编码两个。我想让这个工具可以扩展到数千个序列。我一直在考虑如何完成这项工作,但我只想:替换所有与模式不同的核苷酸,翻译剩下的内容并获得编码氨基酸的摘要。

请让我知道是否可以通过现有工具执行此任务。

谢谢你的帮助。一切顺利,贝尔纳多


编辑(由于我的帖子产生的混乱):

请忘记原始帖子以及序列1和序列2。

大家好,很抱歉造成混乱。输入的 fasta 文件是使用“FeatureExtract”工具( http://www.cbs.dtu.dk/services/FeatureExtract/download.php )从 GenBank 文件派生的 *.ffn 文件,因此可以想象它们已经在帧(+1),并且不需要在与+1不同的帧中编码氨基酸。

我想知道以下序列编码的是哪种氨基酸:

我想获得编码氨基酸的唯一字符串是三个 AG、GA、CT 或 TC 的重复,分别是 (AG)3、(GA)3、(CT)3 和 (TC)3。我不希望程序检索四个或更多重复的编码氨基酸。

再次感谢,贝尔纳多

0 投票
1 回答
543 浏览

perl - 使用 Bio::seq 在 Perl 中不起作用

我安装了 CPAN,然后成功安装了 Bioperl。我找不到 Bio perl 文件夹/usr/bin

但是,文件存在于home/.cpan/build/BioPerl-1.61/Bio/

我无法使用 Bio::SeqIOKomodo

IDE:科莫多编辑 8

操作系统:Ubuntu 12.04

Perl -v:5.14

我应该如何进行?

0 投票
3 回答
1136 浏览

perl - Bio Perl:分割成对端数据的代码?

我是生物信息学的初学者,我一直在编写一些 Bio Perl 代码来将配对的末端 MiSeq 数据(当前位于 1 个 fastq 文件中)拆分为 2 个文件,每个文件包含该对的一个末端。配对末端 reads 的不同末端可以通过fastq 标头中空格后的12来区分。该文件遵循典型的 fastq 格式,例如在命令行中使用“head”:

我编写了一个代码,试图使用匹配来定位标头中的 1 或 2。虽然我使用 Bio::SeqIO perl 似乎无法识别 fastq 格式,但我不断收到此错误:

有人可以帮我找到/修复我的错误吗?BioPerl 网站提供的信息表明 Bio::SeqIO 应该能够识别 fastq 格式。

这是我写的代码:

感谢您对我的初学者知识的帮助和耐心。

〜铝

问题更新:

我已经修复了我的new行中的逗号错误,现在我在运行代码时遇到了这个错误:

我所做的所有阅读似乎都表明 BioPerl 本身中的 FASTQ 解析器存在一些问题。我曾希望让这段代码工作,因为我是一个初学者并试图提高我的编程技能(我完全是自学的),这是一个编程对我有实际应用的问题。我同意关于这很慢并且可能不是处理大型 FASTQ 文件的最佳方法的评论。

关于 + 描述符,我的文件是否需要在其他软件程序中使用(例如:CLC)或者我可以通过删除 FASTQ 中的那一行来解决问题?+ 实际上不包含任何读取的质量信息,对吗?

再次感谢您的输入!

0 投票
3 回答
120 浏览

linux - 如何用file2中的相同编号替换相同编号的file1

我有一个查询列表并在一个文件 (file1) 中点击 gi。我有另一个文件,其中有完整的命中名称(file2),现在我想将命中 gi 从 file1 替换为具有完整命中名称的 file2。我希望 gi 必须在每个对应的查询前面用相同的 gi 替换。

文件 1

文件2

所需的输出:

0 投票
3 回答
432 浏览

bioperl - BIOPERL。Bio::带有 GFF 文件的图形

我需要获得这样的东西:

在此处输入图像描述

但是,我不知道如何继续......现在我有了这个:

在此处输入图像描述

换句话说......我不知道如何添加标签和相应的成绩单,CDS等。

我现在的代码如下:

我也阅读了 CPAN 信息,但没有任何线索...... NCBI 文件有很多信息,但 GFF 没有......

我的数据:

任何帮助都会非常受欢迎。

0 投票
1 回答
750 浏览

fasta - 使用 Bio::DB::Fasta 访问 Fasta 文件

我一直在使用模块使用 Bio::DB::Fasta 来访问 fasta 文件(此处的文档:https ://metacpan.org/pod/Bio::DB::Fasta#OBJECT-METHODS )。我发现这比使用 Samtools 从 fasta 文件中提取位置要快得多。但是,我想知道是否有人知道如果查询包含超出 fasta 最大长度的位置会发生什么。

今天,在一次查询中,我尝试访问 fasta 中的位置,该位置超出了 fasta 中的最大位置。但是,在这种情况下,该方法没有给出错误。我的 fasta 文件包含 0/1 个碱基,返回的输出是“1”。我想知道这是否是一个错误,或者实际上它提供了有效的输出但位置错误。我尝试查看文档,但找不到有关错误代码的任何信息。

我的代码如下:

注意:在 1KG_maskfile.fa 中,最大位置为 249224750(基于字符数,不包括标题)。

0 投票
1 回答
786 浏览

perl - 解析 GenBank 文件

基本上,GenBank 文件包含基因条目(由“基因”宣布,然后是其相应的“CDS”条目(每个基因只有一个),就像我在下面展示的两个一样。我想在制表符分隔中获取 locus_tag 与产品两列文件。“基因”和“CDS”总是前后都有空格。如果使用现有工具可以轻松执行此任务,请告诉我。

输入文件:

所需的输出(locus_tag vs product 在制表符分隔的两个列文件中):

事实上,有这个输出是理想的,每个基因一行(仅显示一个基因):