6

在 2012 年 7 月号的“Mensa Bulletin”中有一篇题为“The Digital Brain”的文章。在其中,作者将人脑与 base64 计算联系起来。这是一篇相当有趣和有趣的文章,最后有提示。所述提示要求读者使用胞嘧啶胞嘧啶鸟嘌呤胞嘧啶腺嘌呤鸟嘌呤等于 2011 的事实将胞嘧啶鸟嘌呤腺嘌呤鸟嘌呤腺嘌呤鸟嘌呤转换为以 10 为底的数字(提到的第一个密码子集简称为 cgagag,第二个密码子集简称为 ccgcag。)基本上您必须使用文章中的表格将基数 64 转换为基数 10,该表格以正确的顺序显示所有可能的密码子 aug = 0, uuu = 1, uuc = 2, ... , gga == 61, ggg = 62,uag = 63。我决定试一试,并决定编写一个 python 程序来将密码子编号转换为以 10 为基数,并将以 10 为基数的数字转换为密码子。在为两者编写了一个快速算法之后,我运行了它。该程序没有给出任何错误,并为我的数字弹出密码子,反之亦然。但是,他们是错误的数字!我似乎看不出出了什么问题,非常感谢任何帮助。

废话不多说,代码:

codons = ['aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca', 'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg', 'cuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg', 'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg', 'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau', 'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu', 'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau', 'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag' ]

def codonNumToBase10 ( codonValue ) :

    numberOfChars = len( codonValue )

    # check to see if contains sets of threes
    if len( codonValue ) % 3 != 0 :
        return -1

    # check to see if it contains the correct characters
    for i in range(0, numberOfChars ) :
        if codonValue[i] != 'a' :
            if codonValue[i] != 'u' :
                if codonValue[i] != 'c' :
                    if codonValue[i] != 'g' :
                        return -2

    # populate an array with decimal versions of each codon in the input
    codonNumbers = []
    base10Value = 0
    numberOfCodons = int(numberOfChars / 3 )
    for i in range(0, numberOfCodons) :
        charVal = codonValue[ 0 + (i*3) ] + codonValue[ 1 + (i*3) ] + codonValue[ 2 + (i*3) ]
        val = 0
        for j in codons :
            if j == charVal :
                codonNumbers.append( val )
                break
            val += 1
        base10Value += ( pow( 64, numberOfCodons - i - 1 ) ) * codonNumbers[i]

    return base10Value

def base10ToCodonNum ( number ) :
    codonNumber = ''
    hitZeroCount = 0
    while( 1==1 ) :
        val = number % 64
        number = int( number / 64 )
        codonNumber = codons[val] + codonNumber
        if number == 0 :
            if hitZeroCount > 0:
                break
            hitZeroCount += 1
    return codonNumber

val_2011 = 'ccgcag'
val_unknown = 'cgagag'

print( base10ToCodonNum( codonNumToBase10( val_2011 ) ), '::', codonNumToBase10( val_2011 ) )
print( base10ToCodonNum( codonNumToBase10( val_unknown ) ), '::', codonNumToBase10( val_unknown ) )

编辑 1: 我得到的值是 ccgcag 的 1499 和 cgagag 的 1978。

编辑 2:由于 Ashwini Chaudhary 修复了 base10ToCodonNum 函数。

4

3 回答 3

2

我无法遵循您的代码,因此我进行了另一个实现,但得到了相同的结果:

CODONS = [
    'aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca',
    'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg',
    'uuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg',
    'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg',
    'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau',
    'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu',
    'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau',
    'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag',
]

def codon2decimal(s):
    if len(s) % 3 != 0:
        raise ValueError("%s doesn't look like a codon number." % s)
    digits = reversed([ s[i*3:i*3+3] for i in range(len(s)/3) ])
    val = 0
    for i, digit in enumerate(digits):
        if digit not in CODONS:
            raise ValueError("invalid sequence: %s." % digit)
        val += CODONS.index(digit) * 64 ** i
    return val

def main():
    for number in ('cggcag', 'ccgcag', 'cgagag', 'auguuuuuc'):
        print number, ':', codon2decimal(number)

if __name__ == '__main__':
    main()

结果:

cggcag : 2011
ccgcag : 1499
cgagag : 1978
auguuuuuc : 66
于 2012-07-06T07:41:39.163 回答
1
def codon2dec(x):
  codons = ['aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca', 'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg', 'uuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg', 'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg', 'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau', 'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu', 'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau', 'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag' ]
  if len(x)%3==0:
      x=[''.join((x[i],x[i+1],x[i+2])) for i in range(0,len(x),3)]
      try:
          return sum(codons.index(y)*(64**(len(x)-1-i)) for i,y in enumerate(x))

      except ValueError:
          return 'invalid input'


  else:
      return 'invalid input'

输出:

>>> codon2dec('cgagag')
1978
>>> codon2dec('ccgcag')
1499
于 2012-07-06T07:24:28.737 回答
1

您的代码实际上确实在 base-64 之间进行了转换。我怀疑您没有按照与问题中完全相同的顺序定义密码子。

按照您为密码子提供的顺序:

'ccgcag' = codons.index('ccg') * 64 + codons.index('cag') = 23 * 64 + 27 = 1499

使用您提供的替换,这在数学上是正确的。要获得 2011,您必须输入cggcag- 那么,您确定以完全相同的顺序复制它们吗?

于 2012-07-06T07:31:26.073 回答