问题标签 [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 高效的经验 CDF 计算/存储
我正在尝试预先计算几个随机变量的分布。特别是,这些随机变量是在基因组位置评估的函数的结果,因此每个变量将有大约 10^8 或 10^9 个值。这些功能非常流畅,所以我认为只在每 2/10/100 次评估一次不会损失太多准确性?base 左右,但不管怎样都会有大量的样本。我的计划是为每个函数预先计算分位数表(可能是百分位数),并在我的主程序的执行中引用这些表,以避免在每次运行时都计算这些分布统计信息。
但我真的不明白我怎么能轻松做到这一点:存储、排序和减少 10^9 浮点数的数组实际上并不可行,但我想不出另一种不会丢失关于分配。有没有一种方法可以测量样本分布的分位数,而不需要将整个数据存储在内存中?
regex - Perl 程序使用引用、哈希表和 subs 来模拟限制性内切酶
我是 Perl 入门课程的学生。我正在寻找有关如何处理任务的建议。我的教授鼓励论坛。任务是:
编写一个 Perl 程序,它将从命令行获取两个文件,一个酶文件和一个 DNA 文件。使用限制酶读取文件并将限制酶应用于 DNA 文件。
输出将是按照它们在 dna 文件中出现的顺序排列的 DNA 片段。输出文件的名称应通过将限制酶的名称附加到 DNA 文件的名称来构建,它们之间有一个下划线。
例如,如果酶是 EcoRI,DNA 文件名为 BC161026,则输出文件应命名为 BC161026_EcoRI。
我的方法是创建一个主程序和两个子程序,如下所示:
Main:不确定如何将我的潜艇绑定在一起?
子程序 $DNA:获取一个 DNA 文件并删除任何新行以生成单个字符串
子程序酶:读取并存储来自命令行的酶文件中的行以将酶首字母缩写词与剪切位置分开的方式解析文件。将剪切的位置作为正则表达式存储在哈希表中 将首字母缩写词的名称存储在哈希表中
关于酶文件格式的注意事项:酶文件遵循一种称为 Staden 的格式。例子:
AatI/AGG'CCT//
AatII/GACGT'C//
AbsI/CC'TCGAGG//
酶的首字母缩写词由第一个斜线之前的字符组成(AatI,在第一个示例中。识别序列是第一个和第二个斜线之间的所有内容(AGG'CCT,在第一个示例中)。切点由识别序列中的撇号 酶内 dna 的标准缩写如下:
R = G 或 A B = 非 A(C 或 G 或 T)等...
除了对主要块的推荐之外,您是否看到我遗漏的任何缺失部分?你能推荐一些你认为对修补这个程序有用的特定工具吗?
输入酶示例:TryII/RRR'TTT//
要读取的示例字符串:CCCCCCGGGTTTCCCCCCCCCCCCAAATTTCCCCCCCCCCCCAGATTTCCCCCCCCCCGAGTTTCCCCC
输出应该是:
中交CCGGGG
TTTCCCCCCCCCCCCAAA
TTTCCCCCCCCCCCCAGA
TTTCCCCCCCCCCGAG
TTTCCCCC
data-structures - 生物信息学的数据结构
参与生物信息学的人应该知道哪些数据结构?我想任何人都应该知道列表、哈希、平衡树等,但我希望有特定于域的数据结构。有没有专门讨论这个主题的书?
perl - 在 FASTA 文件中搜索主题并返回包含主题的每个序列的标题行
下面是我在命令行输入的 FASTA 文件中搜索用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时,它会返回“找不到主题”。我只是 Perl 的初学者,我不知道如何让它打印找到的主题,更不用说返回标题行了。我将不胜感激任何帮助解决这个问题。
谢谢。
perl - 如何解析文件、创建记录和对记录执行操作,包括术语频率和距离计算
我是 Perl 入门课程的学生,正在寻找有关我编写一个分析原子数据的小(但棘手)程序的方法的建议和反馈。我的教授鼓励论坛。我不熟悉 Perl 子程序或模块(包括 Bioperl),因此请将响应限制在适当的“初学者级别”,以便我可以理解并从您的建议和/或代码中学习(也请限制“魔术”)。
该计划的要求如下:
从命令行读取一个文件(包含关于原子的数据)并创建一个原子记录数组(每个换行一个记录/原子)。对于每条记录,程序需要存储:
• 原子的序列号(第 7 - 11 列)
• 其所属氨基酸的三字母名称(第 18 - 20 列)
• 原子的三个坐标(x,y,z)(第 31 - 54 列)
•原子的一个或两个字母的元素名称(例如 C、O、N、Na)(第 77-78 列)提示三个命令之一:频率、长度、密度 d(d 是某个数字):
• freq - 文件中有多少每种类型的原子(例如,氮、钠等将显示如下: N:918 S:23
• length - 坐标之间的距离
• 密度 d(其中 d 是一个数字) - 程序将提示输入文件的名称以保存计算并将包含该原子与每个其他原子之间的距离。如果该距离小于或等于数字 d,它会增加原子数的计数在那个距离内,除非文件中的计数为零。输出看起来像:
1:5
2:3
3:6
...(非常大的文件),完成后将关闭。
我正在寻找有关我在下面的代码中编写(和需要编写)的内容的反馈。我特别感谢有关如何编写我的潜艇的任何反馈。我在底部包含了示例输入数据。
我看到的程序结构和功能描述:
string - 查找两个字符串中的基本重叠计数和内部间隙
我有这两个长度相等的字符串,我需要比较它们。我想找到重叠基数(。)和内部间隙(*)。下面是示例:
重叠数 = 33。内部间隙数 = 2。
我没有问题找到重叠的数量。但我很难找到内部差距。以下是我拥有的当前代码。它非常慢。原则上,我需要计算数百万个这样的对。
请建议我如何有效地找到内部差距和重叠。
arrays - 如何读取文件并为每一行制作记录
寻求有关编写 Perl 程序的帮助,该程序接受输入文件并根据后续命令执行操作。我是 Perl 的初学者,所以请不要太提前提出建议。到目前为止,我的结构是一个主程序和 4 个子程序。
我在两个部分遇到问题:
编写主段的一部分,为输入文件中的每一行创建一个唯一记录(它是固定宽度格式)。我认为这应该用 substr 来完成,但我不知道应该如何构建它。到目前为止,Unpack 超出了我的学习范围。
主程序中调用的函数之一是“距离”子程序,它将计算原子之间的距离。我认为这应该是 For 循环内的 For 循环。关于我应该采取什么方法的任何想法?
记录应该存储一组原子记录(每个换行一个记录/原子):
• 原子的序列号,5 位数字。(第 7 - 11 列)
• 其所属氨基酸的三个字母名称(第 18 - 20 列)
• 原子的三个坐标实数作为十进制和正交坐标 (x,y,z) (cols 31 - 54 )
对于 X,单位为埃 cols。31-38 代表
Y,单位为 Angstroms cols。39-46
For Z in Angstroms cols。47-54
• 原子的一个或两个字母的元素名称(例如 C、O、N、Na)(第 77-78 列)
sub Distance # 获取一个原子记录数组并返回该数组中
所有原子对之间的最大距离。(第 31-54 列)
这是来自输入文件的示例文本。
到目前为止,这是我制作记录的主要和次要内容。我讨厌跛脚,但我没有任何东西可以显示距离子,所以不要担心提供代码,任何关于如何接近的建议将不胜感激。
python - biopython最好的云计算平台是什么?
我目前正在(作为一个高级项目)构建和实现一个生物信息学网络应用程序来处理大数据和一些复杂的工作
我正在使用 biopython
什么云计算平台最好,为什么?
提前致谢
r - R:ape/phylobase:无法将超度量二叉树转换为 hclust 对象(警告消息)
我已经使用 ape 函数和read.tree
ape 包的函数在 R 中导入了 ClustalW2 树。我使用 chronopl 函数估计分子年龄,得到一个超测量的二叉树。我想从中创建一个 R build in dendrogram 对象。
树的情节很好,是一个真正的phylo对象。但是我在尝试转换它时遇到了问题:
最小的工作示例:
生成的树“看起来”很好,我测试以确保树不是超度量和二元的,并希望将其转换为 hclust 对象,最终使其成为树状图对象。
尝试从树中创建 hclust 对象后,出现错误:
我意识到这是一个非常详细的问题,也许这些与某些软件包特别相关的问题最好在其他地方提出,但我希望有人能够帮助我。
非常感谢所有帮助,
问候,
文件下载
Phylip 文件可以在这里下载 http://www.box.net/shared/rnbdk973ja
bioinformatics - 按 GC 内容对序列读取进行分箱
我想“装箱”(拆分成单独的文件)一个多fasta核苷酸序列文件(例如,Roche-454运行约500,000次读取,平均读取长度为250bp)。我想要基于每次读取的 GC 内容的垃圾箱。结果输出将是 8 个多 fasta 文件:
<20% GC含量
21-30% GC含量
31-40% GC含量
41-50% GC含量
51-60% GC含量
61-70% GC含量
71-80% GC含量
>80 % GC 含量
有谁知道已经这样做的脚本或程序?如果没有,有人可以建议如何根据 GC 内容对多 fasta 文件进行排序(然后我可以将其拆分为相关的垃圾箱)?