问题标签 [genome]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
138 浏览

bioinformatics - 通量模拟器基因组数据处理

我正在将基因组/gtf 数据转换为 FASTA 文件格式。我正在为此使用通量模拟器。通量模拟器的演示示例可以正常工作。之后,我从http://hgdownload.soe.ucsc.edu/downloads.htmlhttps://genome.ucsc.edu/cgi-bin/hgTables?command=start下载了基因组和 gtf 数据。

但是在运行 mouse(mm9) gtf 时,它根本不起作用并显示错误:[ERROR] Error while loading stats: Field 5 not found java.lang.IllegalArgumentException: Field 5 not found

我还尝试为“fly”基因组运行通量模拟器。

我收到此错误:[INFO] Loading default PCR distribution Preparation transcript sequences ** 错误 [错误] 准备序列时出错:[错误] 分段时出错:读取序列 chr2L 时出现问题:pos 22877860,len 82,检查染色体序列是否存在/具有正确的大小 java.lang.RuntimeException: 读取序列 chr2L 时出现问题: pos 22877860, len 82,

你能告诉我如何解决这些问题吗?

0 投票
1 回答
195 浏览

numpy - 在 numpy 中实例化结构化 dtype 的语法是什么?

如果我有一个像

如何创建该 dtype 的实例,作为标量。

背景,以防万一有更好的方法:

我想有效地表示直接映射到基因组中碱基的标量数组,逐个染色体。我不想要这些基因组数组的数组,每个只是一组结构化的标量,我想按名称/位置引用,并且能够添加/减去/等。

似乎 dtype.type() 可能是前进的道路,但我还没有找到正确调用此函数的有用文档。

所以假设我有:

最后一行是不对的,但希望它传达了我目前正在尝试的内容。

这是一个可怕的想法吗?如果是这样,正确的想法是什么?如果没有,实现它的正确方法是什么?

这种工作,但很糟糕:

0 投票
1 回答
488 浏览

r - R 中的 LiftOver(错误)

我正在尝试在rtracklayer包中使用 LiftOver 函数,但出现一个错误,这是我的代码:

要将链文件下载并解压缩到我使用的工作文件夹中:

错误如下:

一些想法为什么它不起作用?谢谢!

0 投票
2 回答
238 浏览

bioinformatics - 从蛋白质序列数据库中检索 DNA 序列?

我在 FASTA 中有 1000 多个蛋白质序列及其登录号。我想回到全基因组鸟枪法数据库并检索所有编码与我的初始序列列表中的一个相同的蛋白质的 DNA 序列。

我试过运行一个 tBlastn,每个序列的结果 <10,每个查询 1 个,e 值低于 1e-100 或 e 值为零,但我没有得到任何结果。我想自动化整个过程。

这可以通过从命令行和批处理脚本运行 blast 来完成吗?

0 投票
2 回答
25947 浏览

shell - 将我的 shell 脚本的输出组织到文本文件中的表中

我正在使用一个 unix shell 脚本来构建基因组,然后创建系统发育。根据您使用的基因组组装器,最终输出(系统发育)可能会发生变化。我想比较使用各种基因组组装器的效果。我已经开发了一些指标来比较它们,但我需要帮助来组织它们,这样我才能运行有用的分析。我想将我的数据导入到列中的 excel 中。

这是我用来输出数据的脚本:

目前的输出是这样的:

我希望它看起来像这样: 在此处输入图像描述

提前致谢!

0 投票
1 回答
420 浏览

regex - Python 正则表达式提取基因组序列

我正在尝试使用 Python 正则表达式从基因组数据库中提取基因组序列;我在下面粘贴了一段数据库。

我想要做的是获取 GSVIV01031740001(中间序列)的基因组(ACGT)序列,而其他序列都没有。我目前的正则表达式是

我的逻辑是找到具有正确生物体的 genbank ID 的标题,给我该行,然后转到新行并给我所有 ACGT 和新行,直到我找到具有不同 genbank ID 的生物体的标题。这没有给出任何结果。

是的,我知道 re.compile 实际上并不执行搜索。我正在搜索作为“目标”打开的文件,所以我的执行看起来像

有人可以告诉我我做错了什么,无论是在我的正则表达式中还是首先使用正则表达式?当我在regex101.com 上尝试时,它可以工作,但是当我在 Python 解释器(2.7.1)中尝试时,它失败了。

谢谢!

0 投票
3 回答
98 浏览

r - 在大文件中更有效地替换因子水平

我有一个包含 800000 行和 13000 列的文件。该文件如下所示:

我想用数字替换字母(AA = 0,AB = 1 和 BB = 2)。我所做的是: data[data=="AA"] = 0 在一个小例子中它似乎工作正常,但在大文件中似乎没有完成这项工作。花了几个小时。有没有更有效的方法来做到这一点?非常感谢你。保拉。

0 投票
1 回答
87 浏览

matlab - 对多变量遗传算法的基因组执行遗传操作的不同方法对性能的影响

我在研究中经常使用遗传算法,并且遇到了一个有趣的问题,即如何最好地在基因组上执行遗传操作。假设您有一个由 f(x,y) = a x^n + b x^n-1 + ... + c y^m + d y^m-1 ... 等定义的函数。它只是一个多变量计算起来有些昂贵的函数,因此您正在尝试尽可能高效地进行遗传操作。

如果您使用的是基因组的二进制表示,我发现有两种合理的方法可以执行遗传操作。让我们只看交叉阶段。

这是 Matlab 中矢量化锦标赛选择的代码(用于变量名称的上下文)

因此,您有 2 个不同的变量正在优化,我的问题是您是否要拆分遗传操作,以便将交叉分别应用于每个变量,然后将数组重新连接在一起,这对于 2 点来说看起来像这样交叉:

或者您是否将基因组视为单个交叉操作,并且只执行 2 点交叉,就好像它只是一个像这样的单个变量基因组:

有谁知道已经进行的任何研究表明两种不同的基因组表示方式的差异?我还没有找到任何关于它的发布,但这可能只是因为我不知道如何在谷歌中智能地表达我的问题。

谢谢

0 投票
1 回答
512 浏览

r - p.adjust 与 n < 比测试次数

我想p.adjust在 R 中应用函数,其中n< p 值的数量。独立测试的实际数量低于 p 值的数量,因为它来自具有连锁去平衡 Desequilibrium 的基因组数据(独立测试的有效数量,Meff)。

但是,该p.adjust功能不允许它:number of comparisons, must be at least length(p).

有人知道如何在函数或其他通用函数中更改此默认值以完成类似的工作吗?谢谢!

遵循的步骤:

1 - 3242 个测试标记 = 3242 个 p 值

2 - 推断 Meff 为:1096(http://simplem.sourceforge.net/程序)

现在我需要根据 Meff 估计校正后的阈值或校正的 p 值。

我不确定哪种多重测试校正策略更适合或如何在我的数据中应用它。

0 投票
3 回答
90 浏览

r - Concatenating positions into genomic segments

I would like to concatenate all rows which have more than 0.955 of similarity score. The Aboand Bel columns represents the similarity score with above and below rows, respectively. In the following input df I have 10 genomic probes (NAME column) which is concatenated in just 4 genomic segments (dfout).

My expected output dfout:

Any ideas?