1

可以说我有一个功能:

from time import sleep

def doSomethingThatTakesALongTime(number):
  print number
  sleep(10)

然后我在 for 循环中调用它

for number in range(10):
  doSomethingThatTakesALongTime(number)

我怎样才能设置它,以便总共只需要 10 秒即可打印出来:

$ 0123456789

而不是花 100 秒。如果有帮助,我将使用您提供的信息来进行异步网络抓取。即我有一个我想访问的站点列表,但我想同时访问它们,而不是等待每个站点完成。

4

4 回答 4

2

asyncoro支持异步、并发编程。它包括异步(非阻塞)套接字实现。如果您的实现不需要 urllib/httplib 等(没有异步完成),它可能适合您的目的(并且易于使用,因为它与线程编程非常相似)。您对 asyncoro 的上述问题:

import asyncoro

def do_something(number, coro=None):
    print number
    yield coro.sleep(10)

for number in range(10):
    asyncoro.Coro(do_something, number)
于 2012-07-12T22:16:10.043 回答
2

尝试使用Eventlet——文档的第一个示例展示了如何实现同时获取 URL:

urls = ["http://www.google.com/intl/en_ALL/images/logo.gif",
     "https://wiki.secondlife.com/w/images/secondlife.jpg",
     "http://us.i1.yimg.com/us.yimg.com/i/ww/beta/y3.gif"]

import eventlet
from eventlet.green import urllib2

def fetch(url):
  return urllib2.urlopen(url).read()

pool = eventlet.GreenPool()
for body in pool.imap(fetch, urls):
  print "got body", len(body)

我还可以建议向Celery寻求更灵活的解决方案。

于 2012-07-12T18:42:42.140 回答
1

看一下scrapy框架。它专门用于网页抓取,非常好。它是异步的,建立在扭曲的框架上。

http://scrapy.org/

于 2012-07-12T18:54:08.460 回答
0

以防万一,这是将绿色线程应用于示例代码段的确切方法:

from eventlet.green.time import sleep
from eventlet.greenpool import GreenPool

def doSomethingThatTakesALongTime(number):
    print number
    sleep(10)

pool = GreenPool()

for number in range(100):
    pool.spawn_n(doSomethingThatTakesALongTime, number)

import timeit
print timeit.timeit("pool.waitall()", "from __main__ import pool")
# yields : 10.9335260363
于 2013-06-30T10:52:44.523 回答