multithreading - 当我尝试启动不同的线程时，如何避免重复作业（每个核心一个）？

Question

我正在处理多个大的独立文件（每个文件的进程相同，进程之间没有通信）。所以，我的情况似乎很适合并行多核处理。而且，事实上，我可以访问具有多核的漂亮服务器（Scientific Linux -Red Hat Enterprise-）。

我正在尝试用 Perl 编写一些脚本以利用这些内核。我尝试了threads模块和Parallel::ForkManager. 我使用将作品启动到服务器sbatch，在那里我可以定义我将使用的任务（核心）的数量（以及我将占用的内存等）。尽管如此，当我启动一个选择X个任务的作业时，该作业并没有在核心之间划分，而是总是重复执行（X次，每个核心一次）。我确定我错过了一些重要的东西（而且是基本的！），但是经过一周的努力，我不知道它是什么。怎么了？？？

这是一个示例 Perl 脚本 ( test.pl)：

#!/usr/bin/perl -w 

use strict;
use threads;
use Benchmark qw(:hireswallclock);

my $starttime = Benchmark->new;
my $finishtime;
my $timespent;
my $num_of_threads = 4;

my @threads = initThreads();
foreach(@threads){
    $_ = threads->create(\&doOperation);
}
foreach(@threads){
    $_->join();
}
$finishtime = Benchmark->new;
$timespent = timediff($finishtime,$starttime);
print "\nDone!\nSpent ". timestr($timespent);


sub initThreads{
    my @initThreads;
    for(my $i = 1;$i<=$num_of_threads;$i++){
        push(@initThreads,$i);
    }
    return @initThreads;
}
sub doOperation{
    # Get the thread id. Allows each thread to be identified.
    my $id = threads->tid();
    my $i = 0;
    while($i < 100000000){
            $i++
    }
    print "Thread $id done!\n";
    # Exit the thread
    threads->exit();
}

在这里，一个sbatch用于启动它的脚本示例：

#!/bin/bash -x
#SBATCH --job-name=prueba
#SBATCH -e slurm-%j.out
#SBATCH --ntasks=4
#SBATCH --mem=12G
srun perl -w test.pl

输出（正如我所说，似乎整个过程在每个核心都重复了一次）：

Thread 4 done!
Thread 1 done!
Thread 1 done!
Thread 4 done!
Thread 3 done!
Thread 3 done!
Thread 1 done!
Thread 3 done!
Thread 1 done!
Thread 4 done!
Thread 4 done!
Thread 3 done!
Thread 2 done!
Thread 2 done!
Thread 2 done!
Thread 2 done!

Done!
Spent 36.1026 wallclock secs (36.02 usr +  0.00 sys = 36.02 CPU)

score 3 · Accepted Answer

使用--ntasks=4, srun 将启动 4 个相同的 Perl 进程。你想要的是--ntasks=1，--cpu-per-task=4所以 Slurm 会在一个节点上为你的工作分配四个核心。

multithreading - 当我尝试启动不同的线程时，如何避免重复作业（每个核心一个）？

1 回答 1

Related

Reference