8

我在 RabbitMQ 中有一个任务队列,其中有多个生产者 (12) 和一个用于 webapp 中繁重任务的消费者。当我运行消费者时,它开始将一些消息出列,然后崩溃并出现此错误:

Traceback (most recent call last):
File "jobs.py", line 42, in <module> jobs[job](config)
File "/home/ec2-user/project/queue.py", line 100, in init_queue
channel.start_consuming()
File "/usr/lib/python2.7/site-packages/pika/adapters/blocking_connection.py", line 1822, in start_consuming
self.connection.process_data_events(time_limit=None)
File "/usr/lib/python2.7/site-packages/pika/adapters/blocking_connection.py", line 749, in process_data_events
self._flush_output(common_terminator)
File "/usr/lib/python2.7/site-packages/pika/adapters/blocking_connection.py", line 477, in _flush_output
result.reason_text)
pika.exceptions.ConnectionClosed: (-1, "error(104, 'Connection reset by peer')")

生产者代码是:

message = {'image_url': image_url, 'image_name': image_name, 'notes': notes}

connection = pika.BlockingConnection(pika.ConnectionParameters('localhost'))
channel = connection.channel()

channel.queue_declare(queue='tasks_queue')
channel.basic_publish(exchange='', routing_key=queue_name, body=json.dumps(message))

connection.close()

唯一的消费者代码(一个是冲突的):

def callback(self, ch, method, properties, body):
    """Callback when receive a message."""
    message = json.loads(body)
    try:
        image = _get_image(message['image_url'])
    except:
        sys.stderr.write('Error getting image in note %s' % note['id'])
   # Crop image with PIL. Not so expensive
   box_path = _crop(image, message['image_name'], box)

   # API call. Long time function
   result = long_api_call(box_path)

   if result is None:
       sys.stderr.write('Error in note %s' % note['id'])
       return
   # update the db
   db.update_record(result)


connection = pika.BlockingConnection(pika.ConnectionParameters('localhost'))
channel = connection.channel()
channel.queue_declare(queue='tasks_queue')
channel.basic_qos(prefetch_count=1)
channel.basic_consume(callback_obj.callback, queue='tasks_queue', no_ack=True)
channel.start_consuming()

如您所见,消息有 3 个昂贵的函数。一项裁剪任务、一项 API 调用和一项数据库更新。没有 API 调用,que consumer 运行流畅。

提前致谢

4

2 回答 2

12

您的 RabbitMQ 日志显示了一条我认为我们可能会看到的消息:

missed heartbeats from client, timeout: 60s

发生的事情是您long_api_call阻止了 Pika 的 I/O 循环。Pika 是一个非常轻量级的库,并且不会在后台为您启动线程,因此您必须以这样的方式进行编码,以防止 Pika 的 I/O 循环阻塞的时间长于心跳间隔。RabbitMQ 认为你的客户端已经死掉或没有响应并强行关闭连接。

在此处查看我的答案,该答案链接到此示例代码,显示如何在单独的线程中正确执行长时间运行的任务。您仍然可以使用no_ack=True,您只需跳过ack_message通话即可。


注意: RabbitMQ 团队会监控邮件列表rabbitmq-users有时只会在 StackOverflow 上回答问题。

于 2018-10-25T14:13:12.970 回答
0

从 RabbitMQ 3.5.5 开始,代理的默认心跳超时时间从 580 秒减少到 60 秒。

请参阅pika:使用心跳和阻塞连接超时确保行为良好的连接

最简单的解决方法是增加心跳超时:

rabbit_url = host + "?heartbeat=360"
conn = pika.BlockingConnection(pika.URLParameters(rabbit_url))

# or

params = pika.ConnectionParameters(host, heartbeat=360)
conn = pika.BlockingConnection(params)
于 2021-10-14T23:39:14.070 回答