我在 Python 中使用 beanstalkc 来为必须解析 URL 列表的程序进行排队。因此,我在 beanstalk 中使用 timeout 来避免任何 URL 消耗大量时间。但即使在使用它之后,我的进程也不会超时,并且需要花费大量时间来解析几个 URL。我正在使用以下代码:
for seed in seedlist:
print 'Put data: %s' % seed
bean.put(seed,ttr =5)
while True:
job = bean.reserve()
spider.spider(job.body)
print 'Got data: %s' % job.body