2

我想向 Celery 中长时间运行的任务发送“暂停”信号,我正在尝试找出最好的方法。在视图中,我可以从数据库中提取对象的一个​​实例并告诉它保存,但它与 Celery 中的对象实例不同。该对象不会检查它是否已暂停。

从长期运行的类和任务中轮询数据库感觉很奇怪且不切实际,因此我正在考虑向我的实例发送消息。我看过使用 pubsub,但我更喜欢使用 Django 信号,因为它已经是一个 Django 项目。我可能以错误的方式处理这个问题。

这是一个不起作用的示例:

模型.py

class LongRunningClass(models.Model):
    is_paused = models.BooleanField(default=False)
    processed_files = models.IntegerField(default=0)
    total_files = models.IntegerField(default=100)

    def long_task(self):
        remaining_files = self.total_files - self.processed_files
        for i in xrange(remaining_files):
            if not self.is_paused:
                self.processed_files += 1
                time.sleep(1)

        # Task complete, let's save.
        self.save()

视图.py

def pause_task(self, pk):
     lrc = LongRunningClass.objects.get(pk=pk)
     lrc.is_paused = True
     lrc.save()
     return HttpResponse(json.dumps({'is_paused': lrc.is_paused}))


def resume_task(self, pk):
    lrc = LongRunningClass.objects.get(pk=pk)
    lrc.is_paused = False
    lrc.save()

    # Pretend this is a Celery task
    lrc.long_task()

因此,如果我修改 models.py 以使用信号,我可以添加这些行,但它仍然不能正常工作:

pause_signal = django.dispatch.Signal(providing_args=['is_paused'])

@django.dispatch.receiver(pause_signal)
def pause_callback(sender, **kwargs):
    if 'is_paused' in kwargs:
        sender.is_paused = kwargs['is_paused']
        sender.save()

这也不影响已经在运行的实例化类。如何告诉在任务中运行的模型实例暂停?

4

2 回答 2

3

Celery 任务是一个单独的进程。Django 信号是标准的“观察者”模式,它在一个线程中工作,因此无法使用信号来组织线程之间的通信。您需要从数据库加载对象以了解其属性是否已更改。

class LongRunningClass(models.Model):
    is_paused = models.BooleanField(default=False)
    processed_files = models.IntegerField(default=0)
    total_files = models.IntegerField(default=100)

    def get_is_paused(self):
        db_obj = LongRunningClass.objects.get(pk=self.pk)
        return db_obj.is_paused

    def long_task(self):
        remaining_files = self.total_files - self.processed_files
        for i in xrange(remaining_files):
            if not self.get_is_paused:
                self.processed_files += 1
                time.sleep(1)

    # Task complete, let's save.
    self.save() 

设计不是很好 - 你最好搬到long_task其他地方,并使用新加载LongRunningClass的实例进行操作,但它会完成这项工作。您可以在此处添加一些内存缓存 - 如果您不想经常打扰您的数据库。

顺便说一句:我不是 100% 确定,但您可能在这里遇到另一个设计问题。当您在这种循环中运行非常长时间的任务时,这种情况相当罕见。考虑从你的程序中删除循环(你有队列!)。看一看:

@celery.task(run_every=2minutes)  # adding XX files for processing every XX minutes
def scheduled_task(lr_pk):
    lr = LongRunningClass.objects.get(pk=lr_pk)
    if not lr.is paused:
        remaining_files = self.total_files - self.processed_files
        for i in xrange(lr.files_per_iteration):
            process_file.delay(lr.pk,i)

@celery.task(rate=1/m,queue='process_file')  # processing each file
def process_file(lr_pk,i):
    #  do somthing with i
    lr = LongRunningClass.objects.get(pk=lr_pk)
    lr.processed_files += 1
    lr.save() 

您必须设置 celerybeat,并为此类任务创建单独的队列,才能实现此解决方案。但结果是,您将对程序速度、并行执行有很多控制权,而且您的代码不会因为sleep(1). 如果您为每个文件创建另一个模型,您可以控制哪些文件被处理,哪些不是,处理错误等。

于 2013-04-13T00:48:03.013 回答
0

看看 celery.contrib.abortable - 这是 Celery 任务的替代基类,它实现调用者和任务之间的信号以处理终止,也可以用来实现“暂停”。

当调用者调用abort()时,后端会标记一个状态。任务调用self.is_aborted()以查看是否已设置该特殊状态;然后执行任何适当的操作(终止、暂停、忽略等)。动作在任务的控制之下;这不是自动任务终止。

如果特定任务将 ABORT 信号解释为暂停请求是明智的,则可以按原样使用它。或者您可以扩展该类以提供更多信号,而不仅仅是现有的 ABORT。

于 2013-08-26T17:26:44.083 回答