问题标签 [genetics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - 直系同源群 [软件]
我有大约 3500 个基因要分类,我想按 COG 对它们进行分类。任何人都知道这样做的好方法,即软件或服务器?
r - 为什么R在转换为数字时将“0”作为字符强制转换为NA?
我正在分析 R 中的基因序列。数据框的列是 SNP,行是个体。该 SNP 的样本中每个个体的基因型被记录为一个字符,如“CC”、“AC”、“AA”。由于每个 SNP 只有三种可能的基因型,R 将每一列读取为因子变量。
我想获得每对列之间的相关性,但为了做到这一点,我需要一个数字数据框。我已经能够将数据作为字符而不是因子读取,并根据基因型将数据转换为 0、1 或 2(作为字符)。
但是当我试图将这些字符转换为数字时,R 将 '0's 强制为 NA。为什么会发生这种情况,我该如何防止这种情况发生?我不知道如何在这里显示我的数据,否则我想显示一个小样本。任何帮助深表感谢!
编辑:我的数据集的名称是“hgdpakt”。
这是我用来将字符数据从“CC”转换为“1”的代码,例如:
这给了我基因型的第一个和第二个字符作为列表,按该等位基因的频率排序。下一个,
完成此分配后,我使用以下代码根据基因型携带的次要等位基因数量为每个基因型分配“0”、“1”或“2”:
}
在此之后,我使用 'as.numeric' 转换为数字:
希望这可以帮助。
r - GenABEL:植物 GWAS 中缺少性别“NA”
我想在二倍体植物物种中将 GenABEL 用于 GWAS,但 GenABEL 坚持下去,因为它需要 pheno 文件中的“性别”列。男性填写“1”,女性填写“0”。但我正在研究一种植物物种。我该怎么办?
R中的错误:
if (length(a) == 1 && !(names(a)[1] == 0 || names(a)[1] == 1)) stop("名为 \"sex\" 的列包含错误1 个既不是 0 (=female) 也不是 1 (=male)") 的代码:需要 TRUE/FALSE 的缺失值
python - 使用 Python 的 Contig 扩展
我想向程序中添加一个函数,该程序使用接收重叠群(incon = 初始重叠群;dna 序列)的 dna 序列创建字典,并通过在字典中以键的形式查找重叠部分并将值与“+”运算符。
我将举一个简单的例子:
GATTTGAAGC 作为初始重叠群
ATTTGAAGC:A 是字典中的众多条目之一
我希望函数搜索这样一个重叠部分(我昨天在这里问过这个问题,它本身和特定值都可以正常工作,但在函数中没有变量),它是字典中的一个键,并将该键的值连接到初始序列(将 contig 向右扩展)并将新序列保存到其中,incon
然后删除此字典条目并重复,直到没有留下任何条目(这部分我什至还没有尝试过)。
首先,我希望该函数搜索长度为 9 且值为长度 1 (ATTTGAAGC:A) 的键,并且如果长度为 8 且长度值为 2 (fe ATTTGAAG:TG) 的键没有重叠部分,依此类推。
附加信息:字典“suffixDicts”具有长度从 1(键长度为 14)到 10(键长度为 5)的值的条目。
“读取”是存储序列列表的位置
当我尝试一个接一个地执行这些步骤时,一些工作(例如搜索)而有些则没有,但是当我尝试从中构建一个功能时,实际上什么也没有发生。该函数应该返回最小的扩展名。
我对 Python 很陌生,我可能犯了非常可怕的错误,我希望指出它们。我知道我对此有些不知所措,但我现在理解了现有代码的大部分内容,但我自己在其中实现某些东西仍然存在问题,可能是由于不正确的合成器。我知道有些程序我可以使用,但我想了解它背后的全部内容。
编辑:根据要求,我将添加已经给定的功能。其中一些已经编写了我根据给定代码编写的一些部分(基本上我通过一些调整复制了它)。警告:很多:
阅读 Fasta 文件:附加信息:Fasta 文件包含大量的序列形式:
"> 阅读 1
TTATGAATATACGCAATGGACGTCCAAGGTACAGCGTATTTGTACGCTA
"> 阅读 2
AACTGCTATCTTTCTTGTCCACTCGAAAATCCATAACGTAGCCCATAACG
"> 阅读 3
TCAGTTATCCTATATACTGGATCCCGACTTTAATCGGCGTCGGAATTACT
我在这里上传了文件:http ://s000.tinyupload.com/?file_id=52090273537190816031
编辑:编辑大块代码似乎没有必要。
r - R- 如何在 haploNet haplotyp Networks {pegas} {ape} {adegenet} 中绘制正确的饼图
当使用 haploNet 包在单倍型网络上绘制一些图时,我使用了 Internet 上可用的脚本来执行此操作。不过我觉得有问题。该脚本以木鼠示例的形式提供。我使用的代码是:
但是,在绘制 ind.hap 时,您会注意到某些行不在正确的位置。你可以在这里看到这个:
您可以看到第 IX 行不在正确的位置。这不会有太大问题,但程序需要第 9 行来绘制 IX 的饼图,即 VIII 的数据。结果是这样的:(我无法插入图像,因为我的声誉低于 10...,无论如何您都可以通过执行整个文件来获得图像)
您可以看到,对于 V 直到 IX,它并不是应有的状态(这些是交换的行)。例如:IX 中只有 1 个单倍型,但有 2 个单倍型的饼图(两者都占图表的 50%),它是使用 VIII 数据生成的。由于行是按字母顺序而不是升序排序的,但这是包固有的,我不知道该怎么做。我远不是 R 的大师,所以尽量不要太抽象,而是提供代码。
如果有人非常了解这个包,请解释为什么在真实图表后面有这些奇怪的额外线条(上面有数字),因为它们在木鼠示例中不可见(可能是因为出了什么问题也?)
提前感谢
r - 如何转换基因分型数据
我有这个dataframe
(大约 446664 X 234 暗淡)称为mydf
(dput
提供)。这dataframe
有列REF
和ALT
.
REF
每行只有一个字母,但ALT
可以有一个,两个甚至三个用逗号(“,”)分隔的字母,其余列(示例列)是我需要完成所有工作的列。
考虑到任何字母REF
为 0,第一个字母ALT
为 1,第二个字母为 2,第三个字母为 3,我需要创建一个函数,以便:
我可以用字母替换所有样本列中的数字(即REF和ALT除外),如果有“./.”;
用 NA/NA 填充它们并折叠“/”以在每个单元格中获得成对的字母。
/li>transpose
最后,我需要反转行 ( ) 中的所有示例列,如result
. 谢谢!
预期输出:
r - 用于甲基化 450k 分析的 ChAMP Bioconductor 包的 champ.lasso 错误
我刚刚为甲基化 450k 分析安装了 ChAMP 及其所有依赖项。
我正在尝试本教程(http://www.bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.pdf)但出现错误。
运行 Probe Lasso DMR Hunter 时,我遇到“您发现 4161 个重要的 MVP,其 BH 调整后的 P 值低于 0.05 错误[.data.frame
(dmr.beta.means, , 22:24, ) : undefined columns selected"
该错误会阻止分析停止,并且我无法复制上述教程中显示的内容。
我已经尝试卸载并重新安装 ChAMP,但无济于事...
任何建议和见解将不胜感激!提前致谢!
python - 关于 .split() 的快速思考
所以我需要使用python制作一个punnett square。punnett square 基本上是一种确定可见和有时不可见特征的简单方法。到目前为止,我的代码采用了父母双方的基因构成,并找到了 A 和 G 的所有不同组合。此时我遇到的唯一问题是,当我打印时,字母的顺序不正确。例如:对于每个“孩子”可能的基因构成,有两个 A(大写或小写)和两个 G(大写或小写)。我已经做了相当多的研究,而关于 SOF 的唯一其他与我的有点相关的问题/答案并不清楚,也没有奏效。我的代码如下。
它打印出来
什么时候应该打印
(我知道每个选项都打印了 4 次。需要这样才能获得最准确的概率)
非常感谢,
伊莱
r - 用于处理基因型数据的 R 代码
我有这个数据称为mydf
.
我需要将列中的字母(DNA 字母)REF
与( ) 匹配ALT
,并将相应的数值粘贴在一起作为.colnames(x)
"A","T","G","C"
"REF,ALT"
但是,我有一些行"snp:+[0-9]"
和"flat$"
列中TYPE
。
现在对于"flat$"
我想要的行:
ALT
如果字母是唯一的,则将尽可能多"snp:+[0-9]"
的相应"start"
id 中的值相加ALT
,包括扁线本身(请参阅用大括号括起来的脚本以获得一条扁线)ALT
再次将该值粘贴"REF,ALT"
为(REF
两者的值相同"snp:+[0-9]"
且"flat$"
具有相同的起始 ID)- 得到结果中所示的输出。
我已经为一条扁平线做到了这一点,但我需要帮助制作该功能,flatcase
以便它对所有扁平线都执行相同的操作。
我怎样才能做一个功能来做到这一点flatcase
?
代码
我为 flatCase 尝试过的功能是:
我的
结果:
r - 如何创建带有 X 标签和按因子分组的边框的堆叠条形图?
我想创建一个堆叠的条形图,就像一个结构图(使用程序 distruct)。如何按一个公因子对 X 标签进行分组,并且只显示该因子一次?例如,下面有来自 2 个群体的 6 个个体,我希望只有 2 个以群体为中心的标签。另外,有没有办法在每个组周围放置一个盒子?
这是我所拥有的:
这大致是我想要的:
如果可能的话,最好设置space=
参数并且仍然独立地为组之间的黑色边框选择宽度。
这是我引用的程序:http: //pritchardlab.stanford.edu/structure.html
也许 ggplot 更适合这个?对不起,如果答案很明显,但我无法弄清楚。
注意我意识到您可以手动填写""
特定names.arg
值,但这对于庞大的数据集来说很费力,不能很好地居中标签,也不能解决边界问题。