5

给定符号列表,我想遍历每个可能的 k 长度字符串(称为k-mer )。例如,如果k = 3symbols = {A, C, G, T},则:

AAA
AAC
AAG
...
TTG
TTT

这是我生成字符串的代码:

local k = 3
local bases = {'A', 'C', 'T', 'G'}

-- Generate the string (AAA...AAA)
local kmer_gen = {}
for i = 1,k do kmer_gen[i] = "A" end
local kmer = table.concat(kmer_gen)

它有效,但肯定看起来不太好。这可以更优雅地实现吗?

现在,我不确定如何遍历可能的 k-mers。一种解决方案是继续替换每个字符,但这并不有效。另一种方法是从二进制解码(每个 2 位代表一个基数),但实现很混乱,需要按位运算。还有其他想法吗?

4

2 回答 2

6

这是使用迭代器的解决方案。这是协程的一个很好的例子,一种在 Lua 中非常值得了解的技术。另见http://www.lua.org/pil/9.3.html

local bases = {'A', 'C', 'T', 'G'}

local function allstrings(n,t,k,s)
    k=k or 1
    s=s or {}
    if k>n then
        coroutine.yield(table.concat(s))
    else
        for i=1,#t do
            s[k]=t[i]
            allstrings(n,t,k+1,s)
        end
    end
end

local function kmer(n,t)
    return coroutine.wrap(allstrings),n,t
end

for w in kmer(3,bases) do
    print(w)
end
于 2013-11-06T10:44:54.297 回答
4

这是我可能会使用的相对简单的尾递归解决方案:

local bases = {'A', 'C', 'T', 'G'}

local function kmers(n, prev)
  prev = prev or {''}
  if n <= 0 then return prev end
  local k,r = 1,{}
  for i=1,#prev do
    for j=1,#bases do
      r[k] = prev[i] .. bases[j]
      k = k+1
    end
  end
  return kmers(n-1, r)
end

_3mers = kmers(3) -- usage example

注意:您可以编写r[#r+1]而不是手动管理k,但在这种情况下这样做并不复杂并且速度明显更快(#运算符是O(log n))。

于 2013-11-06T09:25:15.817 回答