1

我正在研究将 DNA 序列转换为蛋白质序列。
我已经完成了所有程序,只有一个错误是我发现的结构错误。
dna_codon 是一个结构,我正在对其进行迭代。在第一次迭代中,它显示了结构的正确值,但从下一次迭代开始,它不显示存储在结构中的正确值。

这是一个小错误,所以不要认为我没有做任何事情并投反对票。我被困在这里,因为我是 c 结构的新手。

代码 :

#include <stdio.h>  
#include<string.h>


void main()
{

int i, len;
char short_codons[20];
char short_slc[1000];
char sequence[1000];

struct codons
{
    char amino_acid[20], slc[20], dna_codon[40];
};

struct codons c1 [20]= {
                        {"Isoleucine", "I", "ATT, ATC, ATA"},
                        {"Leucine", "L", "CTT, CTC, CTA, CTG, TTA, TTG"},
                        {"Valine", "V", "GTT, GTC, GTA, GTG"},
                        {"Phenylalanine", "F", "TTT, TTC"},
                        {"Methionine", "M", "ATG"},
                        {"Cysteine", "C", "TGT, TGC"},
                        {"Alanine", "A", "GCT, GCC, GCA, GCG"},
                        {"Proline", "P", "CCT, CCC, CCA,CCG "},
                        {"Threonine", "T", "ACT, ACC, ACA, ACG"},
                        {"Serine", "S", "TCT, TCC, TCA, TCG, AGT, AGC"},
                        {"Tyrosine", "Y", "TAT, TAC"},
                         {"Tryptophan", "W", "TGG"},
                        {"Glutamine", "Q", "CAA, CAG"},
                        {"Aspargine","N" "AAT, AAC"},
                        {"Histidine", "H", "CAT, CAC"},
                        {"Glutamic acid", "E", "GAA, GAG"},
                        {"Aspartic acid", "D", "GAT, GAC"},
                        {"Lysine", "K", "AAA, AAG"},
                        {"Arginine", "R", "CGT, CGC, CGA, CGG, AGA, AGG"},
                        {"Stop codons", "Stop", "AA, TAG, TGA"}
                        };


int count = 0;

printf("Enter the sequence: ");
gets(sequence);

char *input_string = sequence;
char *tmp_str = input_string;

int k;
char *pch;

while (*input_string != '\0')
{
    char string_3l[4] = {'\0'};
    strncpy(string_3l, input_string, 3);
    printf("\n-----------%s & %s----------", string_3l, tmp_str );
    for(k=0;k<20;k++)
    {
        //printf("@REAL -  %s", c1[0].dna_codon);
        printf("@ %s", c1[k].dna_codon);
        int x;
        x = c1[k].dna_codon;
        pch = strtok(x, ",");
        while (pch != NULL)
        {
            printf("\n%d : %s with %s", k, string_3l, pch);
            count=strcmp(string_3l, pch);
            if(count==0)
            {
                strcat(short_slc, c1[k].slc);
                printf("\n==>%s", short_slc);
            }
        pch = strtok (NULL, " ,.-");
        }
    }
input_string = input_string+3;
}

printf("\nProtien sequence is : %s\n", short_slc);
}

输入 :

TAGTAG

输出:
如果你看到输出

printf("\n-----------%s & %s----------", string_3l, tmp_str );   

在两次迭代中,我们发现结构中定义的值减少了。

我想知道为什么结构会减少它或我的错误?因为我被困在这里

输出要求:

StopStop
4

2 回答 2

2

虽然我不知道你想要什么样的输出。但是如果直接运行你的代码,我会遇到段错误。

  1. 永远不要使用gets()。这个非常重要。请改用 fgets()。你可以写fgets(sequence, 1000, stdin)
  2. strtok修改时与 x 无关dna_codonstrtok没有什么可以从外面停止。
  3. 如果你想拆分dna_codon而不想修改它,你应该复制一个字符串。使用strcpy(char*,char*). 这将制作一个真实的副本(两个字符串)。如果您只是将字符串分配给另一个变量。它们只是指向同一个字符串的两个指针。

    字符 x[40]; strcpy(x,c1[k].dna_codon); // 而不是 x = dna_codon

于 2012-10-24T17:09:12.213 回答
2

strtok()必须仅用于字符串的重复副本,因为它会在必要时用 '\0' 覆盖“分隔符”以生成标记。

下面的代码将切断字符串:

x = c1[k].dna_codon;
pch = strtok(x, ",");

例如:

String = "CTT, CTC, CTA, CTG, TTA, TTG"

在第一次strtok()调用 '\0' 后覆盖 ','

String = "CTT"\0" CTC, CTA, CTG, TTA, TTG"剪断绳子。'\0' 添加以提高可读性。

由于strtok()保持指向字符串其余部分的指针,因此第一个循环是安全的。在第二个循环字符串将只有:

String = "CTT"

PS:为了性能,如果可行,您可以使用字符串数组而不是dna_codon[40]链表。每次比较的斩波/定位分隔符都是开销。

IEEE 标准 1003.1-2008 strtok()

于 2012-10-24T16:57:43.430 回答