问题标签 [genetics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
11 回答
94772 浏览

storage - 存储人类基因组需要多少存储空间?

我正在寻找存储单个人类基因组所需的字节存储量(MB、GB、TB 等)。我在维基百科上阅读了几篇关于 DNA、染色体、碱基对、基因的文章,并做了一些粗略的猜测,但在披露任何内容之前,我想看看其他人会如何处理这个问题。

另一个问题是人类 DNA 中有多少原子,但这与本网站无关。

我知道这将是一个近似值,因此我正在寻找能够存储任何人类 DNA 的最小值。

0 投票
1 回答
1159 浏览

r - 使用 R 分析数据时,如何从 affy 芯片中选择人类 miRNA?

我是 R 新手,想从 3 组数据集中分析 miRNA 表达。谁能帮我吗。

在这种情况下,我得到了其他 miRNA(在 affy 芯片上)作为最高表达的基因。现在我只想选择人类 miRNA。请帮我

提前致谢

0 投票
1 回答
674 浏览

r - 包“GeneR”不可用

我正在尝试安装 GeneR 库(http://www.bioconductor.org/packages/release/bioc/html/GeneR.html):我使用的是 win7 和最新的 R 2.14.2。

安装时出错:

如何安装这个库?

0 投票
2 回答
867 浏览

python - 用于制作包含染色体信息的基本文件的 Python 脚本

我正在尝试制作一些用于遗传分析的 .bed 文件。我是python初学者。我要制作的文件应该是 3 列,制表符分隔,第一列始终相同(染色体编号),第二列和第三列窗口大小为 200,从零开始,到染色体末端结束。例如:

我有染色体的大小,所以目前我想说'而第 2 列 <(铬的大小)打印线。我有一个脚本的骨架,但由于我缺乏经验,它不能很好地工作。这是我到目前为止所拥有的:

如果有人可以修复这个简单的脚本,使其按照我描述的方式运行,或者编写一个更好的解决方案,那将不胜感激。我考虑制作一个脚本,可以输出 20 条染色体和 chrX 的所有文件,但由于我需要指定染色体的大小,我认为我必须分别处理每个文件。

提前致谢!

0 投票
3 回答
5663 浏览

r - 在 R 中按范围合并 - 应用循环

我在这里发布了一个问题:R 中的匹配范围合并关于根据一个文件中的数字合并两个文件,该数字落入第二个文件的范围内。到目前为止,我一直未能成功拼凑代码来完成此任务。我遇到的问题是我使用的代码逐行比较文件。这是一个问题,因为 1.) 一个文件比另一个文件长得多,并且 2.) 我需要通过较长文件中的每个范围对扫描较短文件中的行 - 而不仅仅是同一行中的范围.

我一直在使用原始问题中发布的函数,我觉得应该有一种方法可以将它应用于更通用的循环,将第一个文件中的每一行与第二个文件中的每一行进行比较,但我没有t想通了。如果有人有任何建议,我将不胜感激。

**** 已编辑。

数据的性质是这样的:每个范围不一定是唯一的,尽管大多数是唯一的。它们的大小也不相同,有些完全属于其他范围。findInterval因此会产生错误,因为无法对范围进行排序以符合“非降序”顺序。

以下是每个数据帧的前 6 行:

因此,如您所见,第 5 行的范围在第 4 行的范围内,第一个文件中的两个 SNP 在第 4 行的范围内,但只有一个在第二行的范围内。

第一个包含 SNP 的文件只有约 400 行。但是,包含范围的第二个文件大约有 20K。我想作为输出生成一个数据框,其中包含来自第一个文件(SNP)的行,其中 BP 属于第二个文件中的 BP 范围。如果一个 SNP 属于两个范围,那么它会出现两次,等等。

0 投票
1 回答
2271 浏览

r - R中的遗传数据模拟

我正在寻找可用于模拟特定 SNP 和定量表型之间的遗传关联的最佳方法或最佳软件包,模拟数据与我的真实数据最相似,除了我知道因果变异。我在 R 中看到的所有软件包似乎都专门用于谱系数据或指定了合并和其他进化因素的种群数据,但我没有任何种群遗传学经验,我只想模拟欧洲的简单案例与我的真实数据具有相似特征的人群(即性状的正态分布和基因型的加性效应,相似的等位基因频率……)例如,如果我的遗传数据是 X,我的定量变量是 Y:

我在 R 中寻找类似于 Plink 中的函数的东西,其中需要指定等位基因频率的范围、表型的范围,并指定应该与基因型相关的特定变体(这很重要,因为我需要在不同的数据集中重复这些关联,因果变量相同)

有人可以帮帮我吗?

0 投票
1 回答
433 浏览

r - 行的条件插入

我有一个独特的数据集,其中一部分可以使用以下方法复制:

它被格式化用于需要为丢失的数据条目保留点的程序中使用。在这种情况下,缺少的条目由Sort Order列中的数字跳过指示。如果列下降 6 - 7 - 8 - 9,则条目完成,新条目再次以 6 开头。

我需要一种方法来读取数据文件,并为每个缺失的条目插入一行零,以便文件如下所示:

最终,最后两列ForSortSNPSortOrder将从数据文件中删除,但为了方便起见,现在将它们包括在内。非常感谢任何建议。

0 投票
2 回答
854 浏览

python - python中的种群遗传学建模

所以我需要编写一个程序,生成具有单个基因的理论有机体的几代随机等位基因。

我从一个包含一个突变等位基因 2 的列表开始,然后我为下一代选择 3 个等位基因,并将它们附加到下一代的列表中

问题是,这不会删除未选择的等位基因。我怎样才能调整这个程序,以便从列表中删除未选择的等位基因?

谢谢

- 编辑

程序的输出看起来像这样

[1,1,1,2,1,2,1]

这将代表具有 2 个不同等位基因的 7 个生物群体。这代表了第 2 代,因为有 3 个选定等位基因的双等位基因。这模拟了 3 个选定等位基因的 2 个后代。但未选择的等位基因(在本例中为 1)不应出现在这一代中。所以我想知道的是如何从这里的列表中删除它

注意。抱歉有点冗长

0 投票
1 回答
2644 浏览

r - R WGCNA Cytoscape 枢纽基因

我有以下问题

WGCNA - http://labs.genetics.ucla.edu/horvath/htdocs/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/

处理第 1.6 节,将网络导出到外部软件 (Cytoscape)

我目前正在尝试对一组基因执行 WGCNA,但我无法获得每个模块的 top x hub 基因。我正在尝试将网络导出到 Cytoscape,并使用与导出到 VisANT 概述的相同方法来获取 top x hub 基因。

我写了一个短循环来计算每个基因的连接数,它按预期工作,但第 x 个基因始终有零连接。假设 x 为 30。如果我将截止值增加到 31 个中心基因,则第 30 个基因现在显示与网络中其他基因的连接,但第 31 个基因没有显示任何内容。此外,这种变化增加并减少了与网络中其他基因的一些连接数。这真的让我很困扰,因为应该只添加连接,因为网络变大了一个基因,而变化应该由第 30 个基因来解释,但输出的情况并非如此。

循环似乎按预期工作,所以我认为问题出在网络建设上。我目前正在回顾我对线性代数、矩阵和拓扑的了解,以尝试查看问题是否在于它们的排序方式或类似的方式,但这可能只是 exportNetworkToCytoscape() 函数的方式作品。

0 投票
0 回答
437 浏览

r - 如何从多个 DNA 距离文件在同一张图上绘制多个直方图?

我有 100 个 fasta 文件,我想绘制遗传距离矩阵的重叠直方图,以查看 DNA 数据的引导复制之间有多少重叠?

我已经想出如何让猿使用以下方法读取每个文件:

然后使用以下方法为每个生成一个遗传距离矩阵:

当我从 R 控制台调用它们时,遗传距离文件如下所示:

我遇到麻烦的地方是绘制每个直方图,以便每个引导程序将在同一个窗口中绘制在另一个之上,下面的脚本只是在一个全新的窗口中绘制每个,并且不会重叠它们:

我知道这可以通过以下方式完成:

.......到最后一个文件

但我认为这将是很多工作,这对于 100 个文件来说很好,但如果其他人拥有 1,000 个文件(例如,使用 GenBank 数据工作的人等),这可能太多了。

我还尝试通过使用一些 Unix 将不同的文件粘贴到 \t 分隔的列列表中来解决这个问题:

该文件看起来像这样,我“” \t 试图明确它们是如何分开的

但我不知道如何让 read.dna 将每一列作为单独的数据矩阵读取,我可以让 read.table 读取文件,但卡在那里,

在这一点上我完全被难住了,因为我是一个新的 R 用户,我已经在网上做了很多寻找这个问题的解决方案,似乎没有一个我发现不涉及一些正如我上面所描述的那样做这件事的困难方法的变体,也许 lattice 可以完成工作?