问题标签 [genetics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
154 浏览

python - 按字母顺序和大小写重新排列列表中的字符串

我有一个for循环列表,它用于itertools.product()查找不同的字母组合。我想用来collections.Counter()计算一个项目的出现次数,但是,现在它打印“A”和“G”的所有不同组合:

现在,这还不是全部,但正如您所看到的,虽然顺序不同,但有些情况是相同的,例如:

我更喜欢后一种排序,所以我想找到一种方法在小写字母之前打印所有带有大写字母的组合,并且因为'a'在'g'之前,也是按字母顺序排列的。最终产品应该看起来像['AaGG', 'aaGg', etc]。我应该使用什么功能或功能?

这是生成数据的代码。标记为“计数”的部分是我遇到的麻烦。

0 投票
2 回答
58 浏览

algorithm - 哪种算法适用于遗传学重复数据?

我的问题与为我的数据集找到最佳算法更相关。

我的数据包含三列,即个人、疾病和测试分数(我有 50 个测试分数特征,但这里只提到了一个测试分数特征)。我有 3000 个人,疾病特征的可能值是 disA、disB 和 disC,其中测试分数是离散变量。疾病特征是我的职业属性。

一个人最多可以患有三种不同的疾病,但只有一个测试分数值。我的目标是根据疾病对测试分数进行分类(哪些测试分数与哪种疾病相关)但是这里的问题是,如果一个人患有三种疾病,那么所有测试分数将重复三次。例如,对于单个 aa(包含所有 disA、disB 和 disC)测试分数为 12。然后分析文件将如下所示

这将导致有偏见的分析。是否有针对此类数据的任何数据挖掘算法或统计测试?我无法删除这些患者,因为它们是数据集的最高比例。

0 投票
4 回答
1298 浏览

r - 如何在不提供样品表的情况下加载 GEO 甲基化(450k)数据集?

我从 Gene Expression Omnibus (GEO) 下载了一些 Illumina 450k 甲基化数据集

R Bioconductor 软件包 minfi 和 ChAMP 似乎需要所谓的“样品表”

GEO 上的大多数 TAR 文件似乎不包含这样的样本表 - 它们仅包含 .idat 文件

有好心人能给点建议吗?我想知道如何在没有样本表的情况下运行 ChAMP / Minfi 管道;否则,是否有任何方法可以从 .idat 文件生成样本表?

谢谢!

0 投票
1 回答
34 浏览

position - 为什么有些 SNP 被分配到错误的位置甚至是染色体

在提升我的全基因组数据时,我遇到了一个问题,即一些 rs-numbers 已合并。这让我明白了,一个 SNP 必须曾经被错误分配到错误的位置(甚至错误的染色体)。一段时间后,实验室一定意识到了错误并纠正了它。在这种情况下,旧的 rs 编号被收回,“旧”rs 编号用于该 SNP。好的,到目前为止一切顺利。我的问题涉及以下问题,哪些技术问题或问题会导致这种错位:

哪个可能是技术原因,SNP 被分配到错误的位置(或染色体)?这怎么可能呢?

0 投票
1 回答
892 浏览

r - 如何在曼哈顿图中的 y 轴上进行中断,以便从图中省略 ap 值在一定范围内的变量?

我正在使用修改后的 qqman 函数来创建曼哈顿图,并且我的图中的一个峰非常高,几乎不可能详细看到任何接近阈值的基因座。我想在 Y 轴上做一个中断,以便从图中省略 p 值在 10E-35 和 10E-80 之间的 SNP。我查看了 plotrix 包中的 gap.plot() 函数,但这似乎不起作用。我知道如何使用同一包中的 axis.break() 在 Y 轴上放置实际的中断标记。

有没有人遇到过这个问题?

谢谢!

0 投票
1 回答
2229 浏览

python - 如何使用熊猫根据标签拆分文件?

我有以下格式的基因组测序文件:

染色体名称(字符串) | 位置 (int) | 读数(整数)

所有染色体的数据都存储在一个文件中,我希望

  1. 将文件拆分为单独的染色体数据文件;
  2. 将染色体名称(例如“chr1”、“x”)转换为整数。

我怎么能用熊猫做到这一点?

数据看起来像这样

我还可以通过染色体标签 chr1、chr2、...重新索引数据框

0 投票
1 回答
1206 浏览

python - 在python中的if语句之后变量重置回0

我收到此错误

IndexError:列表索引超出范围

从我收集的内容来看,这是因为我的变量在进入语句r后立即重置为 0 。if我正在学习python,所以任何提示和技巧将不胜感激。

这是我的代码

ps 我正在尝试实现 Needleman-Wunchst 全局对齐算法。

0 投票
2 回答
16216 浏览

r - 如何在 R 中读取 vcf 文件

我有这个VCF 格式文件,我想在 R 中读取这个文件。但是,这个文件包含一些我想跳过的冗余行。我想得到类似于行以匹配行开头的结果#CHROM

这是我尝试过的:

我的文件.vcf

结果

0 投票
1 回答
1008 浏览

python - 将文件解析为 JSON 文件的父/子格式

我想要一些关于如何为基因本体(.obo)解析这个文件的帮助/建议

我正在努力在 D3 中创建一个可视化,并且需要以 JSON 格式创建一个“树”文件 -

这种格式似乎很容易在 python 的字典中复制,每个条目有 3 个字段:名称、描述和 children[]。

我的问题实际上是如何提取数据。上面链接的文件的“对象”结构如下:

我需要 id、is_a 和 name 字段的地方。我曾尝试使用 python 来解析这个,但我似乎无法找到一种方法来定位每个对象。

有任何想法吗?

0 投票
0 回答
189 浏览

r - 如何检索 R 中特定基因的基因注释信息(更具体的功能)?

我有一个基因列表作为我的 eset 的行名,例如:

如何在 R 中找到这些基因的 GO 信息(更具体:功能)?

这是我的解决方案,但我不确定我是否做得对:

正如我之前提到的,我想要找出这些基因的功能而不是描述或它们的位置?

任何帮助将不胜感激。谢谢,