对不起,如果这是太简单的问题。但是当谈到下面我的代码中的一个问题时,我的思绪陷入了困境。问题将随之而来。
1. open(my $go_file, "<", "gene_associations_go_human.txt") or die "Can't open the file!";
2. open(my $selected_genes, "<", "my_selected_genes.txt") or die "Can't open the file!";
3. open(my $output, ">", "output_go_file.txt") or die "Can't open the file!";
4. my %go_hash;
5. chomp(my @sel_genes=<$selected_genes>);
6. while(<$go_file>){
7. chomp($_);
8. my @go_line=split("\t", $_);
9. $go_hash{$go_line[4]}=[] unless exists $go_hash{$go_line[4]};
10. push @{$go_hash{$go_line[4]}}, $go_line[2];
11. }
12. foreach my $go_term (sort keys %go_hash){
13. my @genes=@{$go_hash{$go_term}};
14. @genes= uniq(@genes);
15. my $count=0;
16. foreach my $element(@genes){
17. my $score=grep{$element eq $_} @sel_genes;
18. $count++ if($score>0);
19 }
21. @genes=sort(@genes);
22. push(@genes, ($#genes+1, $count));
23. print $output($go_term."\t".join("\t",@genes)), "\n";
24. }
25. close($go_file);
26. close($selected_genes);
27. close($output);
编辑:输入和输出文件示例
**$go_file:**
UniProtKB A0A183 LCE6A NA GO:0031424
UniProtKB A0A5B9 TRBC2 NA GO:0016021
UniProtKB A0AUZ9 KANSL1L NA GO:0000123
UniProtKB A0AV02 SLC12A8 NA GO:0006813
UniProtKB A0AV02 SLC12A8 NA GO:0015293
UniProtKB A0AV02 SLC12A8 NA GO:0016021
**$selected_genes:**
DOLPP1
SPIC1
KANSL1L
SLC12A8
TRAF1
CDF7
**$output should be like this:**
GO:0000123 KANSL1L 1 1
GO:0006813 SLC12A8 1 1
GO:0031424 LCE6A 1 0
GO:0015293 SLC12A8 1 1
GO:0016021 SLC12A8 TRBC2 2 1
我正在制作%go_hash
(基于),它根据关联的(文件的)$go_file
保留(文件的)基因数组,因此数组中的长度可以不同。我有另一个文件,它只有一列超过 5000 个独特的基因。我应该计算每个数组中的基因数,并找到列表中存在的每个数组的基因数(如果没有重叠,应该在那里)。然后将这两个数字添加到哈希中相应数组的末尾并创建新文件。当它被打印到这个输出文件时,最终结果中的一切都很好,除了一个想法。计数器变量,每个阵列重叠的基因数量,导致3rd column
$go_terms
5th column
%go_hash
$selected_genes
%go_hash
$selected_genes
0
$output
$count
$selected_genes
0
每时每刻。(实际上有很多重叠,所以不应该0
一直如此)。我尝试了很多方法,但没有改变,尤其是 15 到 19 之间的代码行。也许问题出在代码的其他部分。
我在哪里做错了?有人可以纠正我吗?在此先感谢您的任何评论/帮助。