3

我正在编写一个会不断抓取数据的 Python 脚本,但这需要很长时间。有没有一种安全的方法来停止长时间运行的 python 脚本?循环将运行超过 10 分钟,如果我愿意,我需要一种方法来停止它,在它已经运行之后。

如果我从 cron 作业执行它,那么我假设它会一直运行到完成,那么我该如何停止它呢?

另外,如果我从浏览器运行它并调用该文件。我假设停止加载页面会停止它,对吗?


这是场景:
我有一个 python 脚本,它从页面收集信息并将其放入队列中。然后我想要另一个处于无限循环中的 python 脚本,它只检查队列中的新项目。假设我希望无限循环从早上 8 点开始,到晚上 8 点结束。我该如何做到这一点?

4

3 回答 3

5

让我给你一个替代方案。看起来您想要实时更新某种信息。您可以使用发布/订阅接口(发布/订阅)。由于您使用的是 python,因此有很多可能性。

其中之一是使用Redis pub/sub 功能:http ://redis.io/topics/pubsub/ - 这里是相应的 python 模块:redis-py

-更新-

例子

这是dirkk0的一个示例(问题/答案):

import sys
import threading

import cmd


def monitor():
    r = redis.Redis(YOURHOST, YOURPORT, YOURPASSWORD, db=0)

    channel = sys.argv[1]
    p = r.pubsub()

    p.subscribe(channel)

    print 'monitoring channel', channel
    for m in p.listen():
        print m['data']


class my_cmd(cmd.Cmd):
    """Simple command processor example."""

    def do_start(self, line):
        my_thread.start()

    def do_EOF(self, line):
        return True

if __name__ == '__main__':
    if len(sys.argv) == 1:
        print "missing argument! please provide the channel name."
    else:
        my_thread = threading.Thread(target=monitor)
        my_thread.setDaemon(True)

        my_cmd().cmdloop()

-更新 2 -

另外,看看这个教程:

http://blog.abourget.net/2011/3/31/new-and-hot-part-6-redis-publish-and-subscribe/

于 2012-08-10T09:18:02.450 回答
0

我认为持有浏览器页面并不一定会停止 python 脚本,我建议您使用 FORK 在父进程的控制下启动脚本:

  • 例子 :

导入操作系统、时间、信号

def child():
   print 'A new child ',  os.getpid( )
   time.sleep(5)
   os._exit(0)  

def parent():
   while True:
      newpid = os.fork()
      if newpid == 0:
         child()
      else:
         pids = (os.getpid(), newpid)
         print "parent: %d, child: %d" % pids
         print "start counting time for child process...!"
         time1 = time.clock()
         while True:
                  #time.sleep(1)
                  time2 = time.clock()
                  # Check if the execution time for child process exceeds 10 minutes... 
                  if time2-time1 >= 2 :
                           os.kill(int(newpid), signal.SIGKILL)
                           break

      if raw_input( ) == 'q': break

parent()
于 2012-08-10T10:40:35.623 回答
0

我想解决这个问题的一种方法是为一个循环运行一个脚本,这将:

  1. 检查没有其他脚本实例正在运行
  2. 查看队列并处理在那里找到的所有内容

现在,您可以在上午 8 点到晚上 8 点之间每分钟从 cron 运行这个脚本。唯一的缺点是新项目可能需要一些时间来处理。

于 2012-08-10T09:13:16.507 回答