1

我正在尝试解析主机名列表。问题是当我遇到一个不存在的域时,它会减慢整个过程。代码是一个微不足道的 for 循环:

for domain in domains:
    try:
        if socket.gethostbyname(domain.split('@')[1]):
            file1.write(domain)
        else:
            file2.write(domain)
    except socket.gaierror:
        pass

我想知道是否有一种简单的方法可以并行化 for 循环中的内容。

4

3 回答 3

5

您可以使用 Gevent - dns_mass_resolve.py中的示例之一。还可以为所有查询设置超时。

from __future__ import with_statement
import sys
import gevent
from gevent import socket
from gevent.pool import Pool

N = 1000
# limit ourselves to max 10 simultaneous outstanding requests
pool = Pool(10)
finished = 0


def job(url):
    global finished
    try:
        try:
            ip = socket.gethostbyname(url)
            print ('%s = %s' % (url, ip))
        except socket.gaierror:
            ex = sys.exc_info()[1]
            print ('%s failed with %s' % (url, ex))
    finally:
        finished += 1

with gevent.Timeout(2, False):
    for x in xrange(10, 10 + N):
        pool.spawn(job, '%s.com' % x)
    pool.join()

print ('finished within 2 seconds: %s/%s' % (finished, N))
于 2012-10-09T15:38:33.657 回答
1

我不知道一个简单的解决方案。使用多个线程/进程会很复杂,并且可能不会有太大帮助,因为您的执行速度与 IO 绑定。因此,我会看看一些像Twisted这样的异步库。有一个方法:httpresolve : //twistedmatrix.com/documents/12.2.0/api/twisted.internet.interfaces.IReactorCore.htmlIReactorCore

于 2012-10-09T15:22:41.853 回答
0
import thread

def resolve_one_domain(domain):
     ...

for domain in domains:
   thread.start_new_thread(resolve_one_domain, [domain])
于 2012-10-09T15:21:55.050 回答