问题标签 [genetics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3507 浏览

warnings - 错误:(1431.1) FASTA-Reader:警告:FASTA-Reader:标题很长:1127 个字符(最多 1000 个)

我正在我的de novo转录组组装上运行 blastx。虽然程序仍在运行,但我一直在收到类似这样的错误:

...以及其他字符数不同的地方。我已经在网上搜索了这个特定的错误,但我似乎没有找到任何关于它的东西。我希望遇到过它的人可以帮助我理解它的含义,特别是如果我应该停止运行并从不同的参数开始或对我的程序集进行一些更改。

0 投票
1 回答
236 浏览

python - Python numpy 有效地组合数组

我的问题可能听起来很生物学,但我相信任何人都可以在没有任何生物学知识的情况下回答这个问题,我真的可以使用一些帮助。

假设你有一个函数,create_offspring(mutations, genes1,genetic2),它接受一个突变列表,这些突变是一个 numpy 2d 数组的形式,有 5 行和 10 列(每组 5 个 val 是一个突变) :

该函数还采用两个基因组,它们是 5 行 10 列的 numpy 2d 数组形式。基因组中每个位置的值要么是未发生突变的位置的 5 个零,要么填充与发生突变的点的突变列表相对应的值。以下是一个基因组的示例,该基因组尚未在位置 0 处发生突变,并且在位置 1 处已发生突变。

我想要完成的是有效地(我有一个当前的工作方式,但它是慢的方式)从我的两个基因组生成一个子基因组,这是一个 numpy 阵列和两个父基因组的随机组合(又名 numpy数组)。通过随机组合,我的意思是子数组中的每个位置都有 50% 的机会是来自父 1 基因组或父 2 的位置 X 的 5 个值。例如,如果父 1 是

父母2是

儿童基因组应该有 50% 的机会在位置 1 处获得全零,并有 50% 的机会获得[4, 3, 6 , 7, 8]等。

此外,子基因组需要有 0.01% 的机会从一开始传入的突变列表中获得相应的突变。

我有一个当前的方法来解决这个问题,但它需要的时间太长了:

0 投票
3 回答
2711 浏览

r - 在 R 中创建 QQ 图

我一直在尝试在 R 中创建一个 qq 图。我很难使用我的结果,所以我尝试遵循“遗传病例对照研究中的基本统计分析,Clarke 等人”中的示例。

步骤 5, a, iii) 我已将路径和模型替换为必填字段,如下所示:

这是我收到的错误消息:

我仍然在掌握这个软件,所以如果我忽略了一些明显的东西,任何帮助都将不胜感激和抱歉。汤姆

0 投票
2 回答
682 浏览

r - R编程:想要生成随机频率

我想使用 R 生成随机频率(即频率必须等于 1)来模拟群体中的基因频率。我的解决方案是:

关于如何在除法之前将总和限制为特定值(例如随机数必须等于 100)的任何建议?

0 投票
1 回答
1064 浏览

r - 生成具有给定相关性的随机变量:

我想生成 2 个连续随机变量Q1Q2定量特征,每个都是正常的)和 2 个二元随机变量Z1Z2二元特征),在所有可能的对之间具有给定的成对相关性。说

请帮助我在 R 中生成此类数据。

0 投票
1 回答
367 浏览

haskell - 计算具有至少一个显性等位基因的后代的概率

我正在尝试解决http://rosalind.info/上的“孟德尔第一定律”问题

我尝试了几种不同的方法,但我无法让我的解决方案返回与他们页面上的示例问题相同的答案。我知道他们的样本输出是正确的。

这是我所拥有的:

我不确定代码是否错误,或者我计算概率的方法是否错误。本质上,这个想法是获取所有可能的父母的列表,然后根据他们是纯合显性、隐性或杂合子,计算每对父母产生至少具有一个显性等位基因的孩子的概率。然后将每个结果除以父母对的总数。之后,我只是总结列表。但是我的回答有点错误。

谁能指出我正确的方向?

编辑: cartProd 是传递给它的两个列表的“笛卡尔积”,如果你愿意的话。

0 投票
1 回答
720 浏览

r - 对于 R 中的小 p 值,Z 分数四舍五入到无穷大

我正在使用一个全基因组关联研究数据集,p 值范围从 1E-30 到 1。我有一个 R 数据框“数据”,其中包括一个用于 p 值的变量“p”。

我需要使用以下代码对 p 值进行基因组校正:

在第二行的命令中,我使用 qchisq 函数将 p 值转换为 z 分数,p 值 < 1E-16 的 z 分数被四舍五入为无穷大。这意味着我最重要的数据点的 p 值在基因组校正后四舍五入为 0,我失去了它们的排名。

有没有办法解决?

0 投票
2 回答
5257 浏览

bioinformatics - 从 .bim、.bed 和 .fam 文件创建 VCF

我有一个 .fam、.bed 和 .bim 文件,其中包含少数人的标记。我需要将其转换为 VCF 文件。

有人可以帮助创建一个 VCF 文件。有没有可以做到这一点的开源工具?

0 投票
2 回答
118 浏览

bash - 脚本选择

我正在使用 GWAS 数据,试图选择连锁不平衡独立基因座。我的方法是将所有重要的 SNP 从最重要的 -> 最不重要的顺序排列,然后在 1KG 的列表中删除任何处于连锁不平衡 (r2 > 0.2) 且 SNP 高于它们的 SNP。

我有一个文件,其中我的 SNP 排名最高 --> 最不重要:

我还有一个文件列出了 LD 中的 SNP,其中的每一个(来自 SNAP):

我想执行一个脚本,它将读取第一个文件中的 SNP ID,在第二个文件中找到该 SNP ID,然后读取第二个文件的“代理”列。如果第二个文件中没有任何代理 SNP 位于第一个文件的较低行号(即文件中较高的位置,具有更好的排名),我希望将该 SNP ID 写入我的输出文件。

在此示例中,我的输出文件如下所示:

我在 awk 和 bash 方面有一些经验,但对两者都很陌生,不知道从哪里开始完成这项任务。非常感谢任何指针。

0 投票
1 回答
1027 浏览

r - 在随机实验中用均值绘制基因表达数据

我(R 的新手)正在分析一项关于两种治疗对基因表达影响的随机研究。我们在基线和 1 年后评估了 5 个不同的基因。基因倍数计算为 1 年的值除以基线值。

示例基因:IL10_BL IL10_1Y IL10_fold

基因表达被测量为一个连续变量,通常在 0.1 到 5.0 之间。100 名患者被随机分配至他汀类药物或饮食方案。

我想做以下图: - Y 轴应显示具有 95% 置信限的平均基因表达 - X 轴应该是分类的,具有 5 个基因中每个基因的基线、1 年和倍数值,按治疗分组。因此,两组中每个基因有 3 个值的 5 个基因意味着 X 轴上的 30 个类别。如果同一个基因的点用一条线连接起来,那就太好了。

我自己尝试过这样做(使用ggplot2)但没有成功。我试图直接从原始数据中进行操作,看起来像这样(前 6 个观察结果和 2 个不同的基因):

我将不胜感激任何帮助(或链接到类似线程)来做到这一点。