2

我正在使用 perl 的Thread::Queue模块来保持线程池忙于为我正在研究的简单爬虫下载 url。使用Thread::Queue,我将哈希引用列表(准确地说是 360)排入队列,其中每个哈希包含有关单个 url 的信息:

#set up thread queue
my $THREADS=30; # Number of threads
my $url_q = Thread::Queue->new(); # Work to do
my $url_arr = urls();

my $count = 0;
for(@$url_arr) { 
    print "ENQUEUEING $_->{'url'}\n";
    $url_q->enqueue($_);
    $count++;
}

print "COUNT $count\n";
print "QUEUE COUNT " . $url_q->pending() . "\n";

threads->create( sub { 
            while(my $url_h = $url_q->dequeue()) { 
                print "url: $url_h->{'url'}\n\n";
                print "PENDING: " . $url_q->pending() . "\n";
                process_url($url_h);
            }
        }) for (1..$THREADS);   

$url_q->end;
print "WAITING\n";
$_->join() for threads->list;
print "DONE WAITING\n";

问题是我看到所有 360 个 url 都被排入队列,但是我只看到挂起的数字下降到 260 左右,这意味着只有大约 100 个真正得到评估,而 260 永远不会这样做?我用 Thread::Queue 做错了什么吗?谢谢!

4

1 回答 1

0

你确定你没有看到任何错误?当我运行您的代码时,我看到“无法通过包“Thread::Queue”找到对象方法“end””。查看 Thread::Queue 的文档,我没有看到任何关于 end 函数的提及,所以这可能是您的代码中的一个错误。在我的测试中,每当调用 $url_q->end 时,“PENDING”计数器都会停止,这取决于您的计算机速度、当前负载以及它如何调度线程。可能是在你的盒子上,这发生在大约 260 处。

于 2012-12-15T19:56:03.443 回答