您好我正在尝试在 Hadoop 和 Java 中实现一个新构建的生物信息学算法(我不确定是否可以完成)。我在互联网上搜索了很多关于在 Hadoop 上实现算法的信息。然而,我发现的只是“识别并行任务并通过 hadoop 执行它们”。如果你们能通过互联网指导我使用 Java 的 Hadoop 的正确资源,我将非常感激,在那里我可以找到一些可靠的例子,而不是字数。我很了解 Java,但 hadoop 是我的第一次。任何帮助,将不胜感激。
这就是我想做的
我有一个非常大的文本文件(大约 100 MB),其中包含随机的字符行(A、G、T、C)。随机 A、G、T、C 的长序列可能形成一串重要的序列 k,例如( ATCGAGC)。我可能会在这个名为“r”的文本文件的许多行中找到这个序列 k-mer。
我必须执行以下任务
识别R中所有文本(r)行中各种k-mer的位置(整个集/文件)
我必须跟踪特定 r 中 k-mer 的位置。
我有两个参数用于比较各种 r 中的 k-mers。
如果两个 'r' 中的 k-mers 满足上述参数比较我必须更新邻居集 N
如果您有兴趣,这是这里的伪代码
Given k, ĥ, ȇ
1. Make K by extracting all possible kmers from Reads
2. for all reads r belongs R do
construct Gk[r] by scanning through r
end for
3. for all k ε K do
for all read pairs (r,s) ε Gk × GK
if h(r,s) ≥ ĥ and dk < ȇ h(r,s) then
update the N
end if
end for
end for
k is k-mer
K is set of all k
ĥ minimum overlap distance
ȇ maximum mismatch tolerance
N neighbor set
h(r,s) overlap length of r and s wrt k
d(r,s) distance between r and s