1

在下面的代码中,我正在考虑使用多线程或多进程从 url 中获取。我认为游泳池是理想的,任何人都可以帮助提出解决方案..

想法:池线程/进程,收集数据......我的偏好是进程而不是线程,但不确定。

import urllib

URL = "http://download.finance.yahoo.com/d/quotes.csv?s=%s&f=sl1t1v&e=.csv"
symbols = ('GGP', 'JPM', 'AIG', 'AMZN','GGP', 'JPM', 'AIG', 'AMZN')
#symbols = ('GGP')

def fetch_quote(symbols):
    url = URL % '+'.join(symbols)
    fp = urllib.urlopen(url)
    try:
        data = fp.read()
    finally:
        fp.close()
    return data

def main():
    data_fp = fetch_quote(symbols)
#    print data_fp
if __name__ =='__main__':
    main()
4

4 回答 4

1

所以这里有一个非常简单的例子。它遍历符号,一次传递一个到 fetch_quote。

import urllib
import multiprocessing

URL = "http://download.finance.yahoo.com/d/quotes.csv?s=%s&f=sl1t1v&e=.csv"
symbols = ('GGP', 'JPM', 'AIG', 'AMZN','GGP', 'JPM', 'AIG', 'AMZN')
#symbols = ('GGP')

def fetch_quote(symbol):
    url = URL % '+'.join(symbol)
    fp = urllib.urlopen(url)
    try:
        data = fp.read()
    finally:
        fp.close()
    return data


def main():

    PROCESSES = 4
    print 'Creating pool with %d processes\n' % PROCESSES
    pool = multiprocessing.Pool(PROCESSES)
    print 'pool = %s' % pool
    print

    results = [pool.apply_async(fetch_quote, sym) for sym in symbols]

    print 'Ordered results using pool.apply_async():'
    for r in results:
        print '\t', r.get()

    pool.close()
    pool.join()

if __name__ =='__main__':
    main()
于 2010-09-08T16:50:25.443 回答
1

您有一个请求,一次请求多个信息的过程。让我们尝试一一获取这些信息。您的代码将是:

def fetch_quote(symbols):
    url = URL % '+'.join(symbols)
    fp = urllib.urlopen(url)
    try:
        data = fp.read()
    finally:
        fp.close()
    return data

def main():
    for symbol in symbols:
        data_fp = fetch_quote((symbol,))
        print data_fp

if __name__ == "__main__":
    main()

所以 main() 调用,每个 url 一个一个来获取数据。让我们用一个池对它进行多处理:

import urllib
from multiprocessing import Pool

URL = "http://download.finance.yahoo.com/d/quotes.csv?s=%s&f=sl1t1v&e=.csv"
symbols = ('GGP', 'JPM', 'AIG', 'AMZN','GGP', 'JPM', 'AIG', 'AMZN')

def fetch_quote(symbols):
    url = URL % '+'.join(symbols)
    fp = urllib.urlopen(url)
    try:
        data = fp.read()
    finally:
        fp.close()
    return data

def main():
    for symbol in symbols:
        data_fp = fetch_quote((symbol,))
        print data_fp

if __name__ =='__main__':
    pool = Pool(processes=5)
    for symbol in symbols:
        result = pool.apply_async(fetch_quote, [(symbol,)])
        print result.get(timeout=1)

在下面的 main 中,创建了一个新进程来请求每个符号 url。

注意:在 python 上,由于存在 GIL,因此必须将多线程主要视为错误的解决方案。

有关文档,请参阅:python 中的多处理

于 2010-09-08T16:53:38.667 回答
0

实际上,两者都可以做到。您可以使用异步调用在一个线程中完成它,例如twisted.web.client.getPage来自Twisted Web

于 2010-09-08T16:38:16.477 回答
-1

如您所知,由于 GIL,Python 中的多线程实际上并不是多线程。本质上,它是在给定时间运行的单个线程。因此,在您的程序中,如果您希望在任何给定时间获取多个 url,多线程可能不是要走的路。还是在抓取之后将数据存储在单个文件或某个持久数据库中?这里的决定可能会影响你的表现。

多进程这样更有效,但会产生额外进程的时间和内存开销。我最近在 Python 中探索了这两个选项。这是网址(带代码) -

python -> 多处理模块

于 2010-09-08T16:45:46.150 回答