我正在处理多个大的独立文件(每个文件的进程相同,进程之间没有通信)。所以,我的情况似乎很适合并行多核处理。而且,事实上,我可以访问具有多核的漂亮服务器(Scientific Linux -Red Hat Enterprise-)。
我正在尝试用 Perl 编写一些脚本以利用这些内核。我尝试了threads
模块和Parallel::ForkManager
. 我使用 将作品启动到服务器sbatch
,在那里我可以定义我将使用的任务(核心)的数量(以及我将占用的内存等)。尽管如此,当我启动一个选择X个任务的作业时,该作业并没有在核心之间划分,而是总是重复执行(X次,每个核心一次)。我确定我错过了一些重要的东西(而且是基本的!),但是经过一周的努力,我不知道它是什么。怎么了???
这是一个示例 Perl 脚本 ( test.pl
):
#!/usr/bin/perl -w
use strict;
use threads;
use Benchmark qw(:hireswallclock);
my $starttime = Benchmark->new;
my $finishtime;
my $timespent;
my $num_of_threads = 4;
my @threads = initThreads();
foreach(@threads){
$_ = threads->create(\&doOperation);
}
foreach(@threads){
$_->join();
}
$finishtime = Benchmark->new;
$timespent = timediff($finishtime,$starttime);
print "\nDone!\nSpent ". timestr($timespent);
sub initThreads{
my @initThreads;
for(my $i = 1;$i<=$num_of_threads;$i++){
push(@initThreads,$i);
}
return @initThreads;
}
sub doOperation{
# Get the thread id. Allows each thread to be identified.
my $id = threads->tid();
my $i = 0;
while($i < 100000000){
$i++
}
print "Thread $id done!\n";
# Exit the thread
threads->exit();
}
在这里,一个sbatch
用于启动它的脚本示例:
#!/bin/bash -x
#SBATCH --job-name=prueba
#SBATCH -e slurm-%j.out
#SBATCH --ntasks=4
#SBATCH --mem=12G
srun perl -w test.pl
输出(正如我所说,似乎整个过程在每个核心都重复了一次):
Thread 4 done!
Thread 1 done!
Thread 1 done!
Thread 4 done!
Thread 3 done!
Thread 3 done!
Thread 1 done!
Thread 3 done!
Thread 1 done!
Thread 4 done!
Thread 4 done!
Thread 3 done!
Thread 2 done!
Thread 2 done!
Thread 2 done!
Thread 2 done!
Done!
Spent 36.1026 wallclock secs (36.02 usr + 0.00 sys = 36.02 CPU)