1

我试图了解如何使用线程,我在http://www.ibm.com/developerworks/aix/library/au-threadingpython/遇到了这个很好的例子

      #!/usr/bin/env python
      import Queue
      import threading
      import urllib2
      import time

      hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
      "http://ibm.com", "http://apple.com"]

      queue = Queue.Queue()

      class ThreadUrl(threading.Thread):
      """Threaded Url Grab"""
        def __init__(self, queue):
          threading.Thread.__init__(self)
          self.queue = queue

        def run(self):
          while True:
            #grabs host from queue
            host = self.queue.get()

            #grabs urls of hosts and prints first 1024 bytes of page
            url = urllib2.urlopen(host)
            print url.read(1024)

            #signals to queue job is done
            self.queue.task_done()

      start = time.time()
      def main():

        #spawn a pool of threads, and pass them queue instance 
        for i in range(5):
          t = ThreadUrl(queue)
          t.setDaemon(True)
          t.start()

       #populate queue with data   
          for host in hosts:
            queue.put(host)

       #wait on the queue until everything has been processed     
       queue.join()

      main()
      print "Elapsed Time: %s" % (time.time() - start)

我不明白的部分是为什么该run方法有一个无限循环:

        def run(self):
          while True:
            ... etc ...

只是为了笑,我在没有循环的情况下运行了程序,它看起来运行良好!那么有人可以解释为什么需要这个循环吗?另外,由于没有 break 语句,循环如何退出?

4

2 回答 2

2

您是否希望线程执行不止一项工作?如果没有,则不需要循环。如果是这样,你需要一些能够让它做到这一点的东西。循环是一种常见的解决方案。您的示例数据包含五个作业,并且程序启动了五个线程。因此,您不需要任何线程在这里完成一项以上的工作。不过,请尝试为您的工作负载再添加一个 URL,然后看看有什么变化。

于 2013-01-24T04:22:33.837 回答
2

该循环是必需的,因为没有它,每个工作线程在完成其第一个任务后立即终止。您想要的是让工作人员在完成后执行另一项任务。

在上面的代码中,您创建了 5 个工作线程,恰好足以覆盖您正在使用的 5 个 URL。如果您有 >5 个 URL,您会发现只有前 5 个被处理。

于 2013-01-24T04:23:21.810 回答