问题标签 [bioinformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
933 浏览

perl - 生成具有替换率的合成 DNA 序列

鉴于这些输入:

我想生成:

  1. 一千个长度 - 10 个标签

  2. 标签中每个位置的替换率是 0.003

产生输出如:

在 Perl 中有一种紧凑的方法吗?

我坚持将此脚本的逻辑作为核心:

0 投票
6 回答
2714 浏览

python - 如何在 Python 中通过 HTTP 与 UniProt 对话?

我试图从 UniProt 获得一些结果,这是一个蛋白质数据库(细节并不重要)。我正在尝试使用一些从一种 ID 转换为另一种 ID 的脚本。我可以在浏览器上手动执行此操作,但无法在 Python 中执行此操作。

http://www.uniprot.org/faq/28中有一些示例脚本。我尝试了 Perl,它似乎可以工作,所以问题是我的 Python 尝试。(工作)脚本是:

我的问题是:

1)你会如何在 Python 中做到这一点?

2) 我是否能够大规模“扩展”它(即,在查询字段中使用大量条目)?

0 投票
3 回答
2887 浏览

perl - 如何在 Perl 中合并两个 FASTA 文件(一个带换行符的文件)?

我有两个以下 Fasta 文件:

文件1.fasta

文件 2.qual

请注意每个 fasta 标头的“qual”文件中的换行符 - 用“>”标记。两个文件的文件头 ('>') 的数量相同。数字质量的数量=序列长度。

我想要做的是附加这两个文件产生:

但不知何故,我下面的代码无法正确执行?特别是 'qual' 文件中每个条目的第二行不会被打印出来。

正确的方法是什么?

0 投票
4 回答
9562 浏览

java - 查询 DNS 服务记录以查找主机名和 TCP/IP

Roderic DM Page 博士在一篇关于生命科学标识符的论文(参见LSID Tester,一种用于测试生命科学标识符解析服务的工具)中写道:

给定 LSID urn:lsid**:ubio.org**:namebank:11815,在 DNS 中查询 _lsid._tcp 的 SRV记录ubio.org返回 animalia.ubio.org:80 作为 ubio.org LSID 服务的位置。

我了解到我可以使用 unix 上的host命令将 _lsid._tcp.ubio.org 链接到 animalia.ubio.org:80:

我如何使用 Java J2SE API 来做这个“DNS”事情(没有任何外部 Java 库,我想要一个轻量级的解决方案)?

谢谢

0 投票
14 回答
8207 浏览

operating-system - 生物信息学的最佳操作系统?

生物信息学工作的最佳操作系统选择是什么?大多数工具是用于 64 位 Windows、Linux/Unix 还是 OS X?

0 投票
3 回答
2311 浏览

perl - 如何在蛋白质序列(字符串)中找到多个基序(子字符串)?

以下脚本用于查找蛋白质序列中的一个基序。

我不确定如何扩展它以在包含蛋白质序列的给定文件中查找多个基序(以固定顺序,即motif1、motif2、motif3)。

0 投票
15 回答
1299 浏览

version-control - 鼓励非专业程序员的良好开发实践?

在我丰富的空闲时间,我与许多科学家(主要是生物学家)合作,他们开发与他们所做的工作相关的软件、数据库和其他工具。

通常,这些项目是一次性构建的,在内部使用,最终有人决定“哦,这可能对其他人有用”,因此他们发布二进制文件或在其上添加一个 PHP 接口并将其推到网。但是,他们通常不会费心将他们的源代码或数据库转储提供给其他开发人员,因此在实践中,这些项目通常会在为其编写代码的项目结束或失去资金时终止。几个月(或几年)后,其他一些实验室需要相同类型的工具,他们必须重复第一个实验室所做的工作,项目最终会失败,起泡,冲洗,重复。

对于如何说服主要工作不是编程的人,让他们对自己构建的工具更加开放,这对他们的社区有益,有什么建议吗?

同样,关于如何传达版本控制、错误跟踪、重构、自动化测试、持续集成和其他我们专业开发人员认为理所当然的常见做法是值得花时间研究的好想法的任何建议?

不幸的是,许多科学家似乎认为编程是一种枯燥、必要的恶作剧,他们的研究更为重要,没有意识到现在软件开发是科学研究的一部分,如果社区作为整体来说,提高发展标准的门槛,人人都会受益。

你有没有遇到过这样的情况?什么对你有用?

0 投票
11 回答
51029 浏览

python - 在两个大字典中查找匹配键并快速完成

我试图在两个不同的字典中找到相应的键。每个都有大约 600k 条目。

比如说:

我想打印出 Actinobacter (8924342) 的值,因为它与 myRDP 中的值匹配。

以下代码有效,但速度很慢:

我尝试了以下方法,但它总是导致 KeyError:

是否有可能在 C 中实现了一个函数来执行此操作?我用谷歌搜索,但似乎没有任何效果。

谢谢。

0 投票
7 回答
1345 浏览

c - 直接从我的应用程序执行 BLAST/SmithWaterman 搜索

我正在开发一个小型应用程序,并考虑将 BLAST 或其他本地对齐搜索集成到我的应用程序中。我的搜索只调出了程序,需要安装并作为外部程序调用。

有没有办法让我从头开始实施它?任何预制的图书馆也许?

0 投票
3 回答
2671 浏览

perl - Perl递归技术?

我需要一些帮助是这段代码。我知道应该递归的部分,或者至少我认为我知道但不确定如何实现它。我正在尝试从对齐矩阵中实现寻路程序,该程序将找到返回零值的多条路线。例如,如果您执行我的代码并插入 CGCA 作为第一个序列,将 CACGTAT 作为第二个序列,以及 1、0 和 -1 作为匹配、不匹配和差距分数。该程序给出的路径为 HDHHDD,对齐方式为

CACGTAT

CGC--A-。

然而,除了我不知道有多少之外,还有更多可能的路径和路线。我想要做的是让我的一段代码自行循环并找到其他路径和对齐方式,使用与第一次相同的代码,直到它用完可能的对齐方式。我在网上找到的最好的方法是递归,除了没有人能解释如何做到这一点。在这种情况下,应该有另外两条路径和对齐方式 HDDDHHD 和 CACGTAT 以及 C--GCA- 和。HDDDDHH、CACGTAT 和--CGCA-。我只是不知道如何编写代码来执行此任务。

如果有人想知道这是一种needleman-wunsch 算法。这里的任何帮助都会非常感激。