7

我的问题与工作内联 C 代码有关:是否有必要使用内联堆栈函数 (Inline_Stack_Vars) 来传入和传出变量,或者在这种情况下只修改变量是否合适?

为了显示生物序列数据,我只需要显示两个对齐字符串之间的差异;例如给定这两个字符串:

    ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
    --CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA--

我想得到这个(第二个字符串中的匹配字符替换为'.'s。

    --.CCC..CT....G...G..........-............---...--

我有很多序列(数百万次 Illumina 读取),因此已转向 inline::c 进行字符匹配。以下内联代码似乎可以正常工作(将第二个参数更改为 add_matchchars 函数):

#!/usr/bin/perl
use Inline C;

my($seq1,$seq2) = qw/ ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
                      --CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA-- /;

print $seq1,"\n";
print $seq2,"\n";
add_matchchars($seq1,$seq2);
print $seq2,"\n";

__END__

__C__

void add_matchchars(char *seq1, char *seq2) {
    int seq1char;
    int seq2char;
    while(seq1char = *seq1++ , seq2char = *seq2++) {
        if (seq1char == seq2char) {
            *seq2--;
            if (seq1char != '-') {
                *seq2 = '.';
            }
            *seq2++;
        }
        //printf("%c-%c\n",seq1char,seq2char);
    } 
 // printf("%s\n%s\n",seq1,seq2);
}

但是1)它是否相当有效(有没有更聪明/更好的方法)?2)它会泄漏内存吗?

4

1 回答 1

6

您不应依赖char *可修改的标量,甚至不应依赖标量的原始缓冲区。相反,返回一个新字符串。

Inline_Stack_Vars宏仅在处理可变数量的参数或多个返回值时才有用。这里也不是这样。

您的代码目前没有内存泄漏(您没有在 C 函数中分配任何内存),但存在一些问题,包括。样式,可能的段错误(纠正Perl 字符串可能在字符串while(seq1char = *seq1++ , seq2char = *seq2++)while((seq1char = *seq1++) && (seq2char = *seq2++))包含 NUL 的事实。

我认为让你的 C 函数直接采用标量通常是一个更好的主意。大致:

SV *add_matchchars(SV *seq1_sv, SV *seq2_sv) {
    STRLEN len1, len2;
    char *seq1 = SvPVbyte(seq1_sv, len1);
    char *seq2 = SvPVbyte(seq2_sv, len2);
    STRLEN min_len = len1 < len2 ? len1 : len2;
    SV *seq3_sv = newSVpvn(seq2, min_len);
    char *seq3;
    STRLEN i;

    seq3 = SvPVX(seq3_sv);
    for (i = 0; i < min_len; ++i) {
        if (seq1[i] == seq2[i])
            seq3[i] = '.';
    }

    return seq3_sv;
}
于 2014-04-07T18:00:26.493 回答