问题标签 [ncbi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
157 浏览

formatting - 如何在 NCBI 的 ptt(蛋白质表)格式中表示多个 contigs

我有一个包含许多重叠群的程序集,对于另一个程序,我需要 *.ptt(蛋白质表)格式的蛋白质。到目前为止,我似乎所有的例子都只包含一个染色体,所以我如何确保两个不同的重叠群上的两个基因,例如从第 10 位开始,到第 1000 位结束,被识别为属于这些不同的重叠群(因为它们都是有相同的统计/停止位置)?

我是否必须为每个 contig 添加一个新标头?格式是否完全支持这一点?

谢谢,洛迪

0 投票
2 回答
2084 浏览

python - 短核苷酸序列的 Biopython 爆炸参数

我正在尝试使用 NCBIWWW 通过 biopython 运行 blastn。
我在给定的示例文件上使用 qblast 函数。
我定义了一些方法,当我的 fasta 包含足够长的序列时,一切都像魅力一样。唯一失败的情况是当我需要爆炸来自 Illumina 测序的读数太短时。所以我想说这可能是因为提交作品时没有自动重新定义爆破参数。

我尽我所能接近blastn-short条件(参见此处的表C2 )但没有任何成功。

看起来我无法输入正确的参数。

我认为我越接近工作情况,情况如下:

感谢您提供任何提示/建议以使其发挥作用。

我的快速阅读示例如下:

我得到的错误如下:

当我查看此页面时,似乎我的问题是关于修复阈值,但显然我到目前为止还没有成功。

感谢您的任何帮助。

0 投票
1 回答
1302 浏览

database - 如何使用 Perl 从 NCBI 获取 FASTA 核苷酸格式的基因特征?

我可以手动下载一个 FASTA 文件,如下所示:

通过单击“发送至”并选择“基因特征”,FASTA Nucleotide 是此页面上唯一的选项(这很好,因为这就是我想要的)。

使用这样的脚本:

我得到一个看起来像这样的文件:

将整个基因组序列集中在一起。如何获取第一个(手动下载的)文件中的信息?

我看了其他几个帖子:

以及EUtilities Cookbook 中的这一部分

我尝试获取并保存一个 GenBank 文件(因为我得到的 .gb 文件中的每个基因似乎都有单独的序列),但是当我使用 Bio::SeqIO 处理它时,我只会得到一个大序列。

0 投票
2 回答
798 浏览

bioinformatics - 使用 Biojava 或 Biopython 检索某些生物的全基因组 genbank 文件

有谁知道如何使用 Biopython 或 BioJAVA 从 FTP ncbi 自动搜索和解析 gbk 文件。我在 Biojava 中搜索了实用程序,但没有找到任何实用程序。我也尝试过 BioPython,这是我的代码:

但是,只有 3 种鸟分枝杆菌(全基因组序列和完全注释),我得到的结果是 59897。

谁能告诉我如何在 BioJava 或 BioPython 中执行搜索。否则我将不得不从头开始自动化这个过程。

谢谢你。

0 投票
1 回答
863 浏览

python-3.x - Biopython NCBIWWW.qblast 测试文件 - 挂起

当我尝试运行 Biopython 提供的用于 NCBIWWW.qblast 在线搜索的测试文件时,它只是一直挂着,从不响应。当我尝试自己运行任何包含 NCBIWWW.qblast 的脚本时,也会发生同样的情况:它刚刚到达这一行并停止。从未发出错误消息,从未收到任何结果,并且该过程永远不会以任何方式结束。

产生问题的脚本之一是这个:

可能是什么问题?

0 投票
1 回答
454 浏览

r - 将 BLAST SRA 函数与 R 一起使用

我是 R 菜鸟,但我可以从 R 的命令行控制 NCBI BLAST 中的 SRA 功能吗?NCBI 网站是出了名的不可靠,我希望能够管理批量文件。

0 投票
1 回答
316 浏览

xml - 来自 qblast xml 输出的单个命中基因信息

我刚刚开始使用 Biopython,我正在尝试使用该qblast()函数执行远程 BLAST 操作。一切似乎都正常工作,但我无法检索基本的输出结果。当从 NCBI 网页执行 BLAST 时,我可以看到每个命中的“特征”字段,这表明基因,对于给定的命中主题,分配给查询核苷酸序列。但是,当从 解析输出 XML 文件时qblast,我看不到与此相对应的字段。我已经直接从 BLAST 输出导出了 XML 文件,但它也在那里丢失了。

这个输出文件中是否有可能完全丢失了如此重要的信息?是否有其他方法可以访问此信息,或者我只能通过解析文本形式的输出文件来访问它?

0 投票
0 回答
467 浏览

c++ - 使用 NCBI c++ 工具包有问题

我正在尝试实现一个小程序来进行爆炸并在没有浏览器的情况下获得结果。ncbi c++ 工具包看起来就像我正在寻找的东西,但是,我遇到了一些使用它的问题。

我的环境是带有 MSVC 2010 c++ 编译器和 QT 框架的 windows,我已经按照以下说明下载、配置和构建工具包。

http://www.ncbi.nlm.nih.gov/books/NBK7167/

我在下面的目录中有所有库(.*lib 文件):

ncbi_cxx--12_0_0\compilers\msvc1000_prj\dll\lib\ReleaseDLL

以下是 ncbi 提供的示例,我正在尝试做类似的事情。 http://www.ncbi.nlm.nih.gov/IEB/ToolBox/CPP_DOC/lxr/source/src/sample/app/blast/remote_blast_demo.cpp

一切就绪后,我创建了一个项目(使用 Qt Creator)并尝试使用该工具包。但是,当我包含任何头文件时会出现问题,例如

在包含ncbi库时,我不知道如何解决编译器错误。错误信息如下:

'ncbi::CUtf8::AsUTF8' 重新定义默认参数:参数 2(ncbistr.hpp 第 2861 行)

'ncbi::CStringUTF8 ncbi::CUtf8::AsUTF8(const ncbi::TCharUCS2*,ncbi::SIZE_TYPE)' : 成员函数已经定义或声明(ncbistr.hpp line 2861)

'ncbi::CUtf8::AsUTF8' :缺少参数 2 的默认参数(ncbistr.hpp 第 2861 行)

我花了几天时间研究如何使用这个工具包,如果有人能给我一些想法,我将不胜感激。

顺便说一句,在项目文件中,我确实包含路径和库。

0 投票
1 回答
1784 浏览

php - 抓取具有多个重定向的页面的最佳方法

我想爬取 NCBI 网站并在此链接上发送蛋白质局部比对请求: http ://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch

我想知道我是否能够使用 PHP 向该地址提交发布请求并获得新页面中的结果。还有一个问题,在显示最终结果之前,页面会经历多次重定向 - 您可以使用以下进入文本区域的输入来测试这种情况:

这是我的尝试:

这段代码让我获得了初始页面,就好像没有完成 POST 一样。谢谢


更新

我尝试了以下建议之一 - Goutte。

这是我的新代码:

变量$aaTest是我上面给出的蛋白质序列。好的部分是:它发布,让我进入新页面,但不遵循所有重定向。我怎样才能让它遵循所有的重定向?

0 投票
2 回答
139 浏览

html - 使用 perl 的 LWP 读取网页 - 输出与下载的 html 页面不同

我尝试访问和使用 NCBI 中的不同页面,例如
http://www.ncbi.nlm.nih.gov/nuccore/NM_000036 但是,当我使用 perl 的 LWP::Simple 'get' 函数时,我没有得到相同的结果手动保存页面时得到的输出(使用 Firefox 浏览器的“另存为 html”选项)。我从“get”函数中得到的缺少我需要的数据。

难道我做错了什么?我应该使用其他工具吗?

我的脚本是:

提前致谢!