3

我在面向对象和基于矢量的设计之间徘徊。我喜欢物体赋予整个建筑的能力、结构和安全性。但与此同时,速度对我来说非常重要,在数组中包含简单的浮点变量确实有助于基于向量的语言/库,如 Matlab 或 Python 中的 numpy。

这是我写的一段代码来说明我的观点

问题:添加两个波动率数字。如果 x 和 y 是两个波动率数字,则波动率之和为 (x^2 + y^2)^0.5(假设某些数学条件,但这在这里并不重要)。

我想非常快地执行这个操作,同时我需要确保人们不会以错误的方式(x+y)添加波动率。这两个都很重要。

基于 OO 的设计将是这样的:

from datetime import datetime 
from pandas import *

class Volatility:
    def __init__(self,value):
       self.value = value

    def __str__(self):
       return "Volatility: "+ str(self.value)

    def __add__(self,other):
        return Volatility(pow(self.value*self.value + other.value*other.value, 0.5))

(旁白:对于那些刚接触 Python 的人,add只是一个覆盖 '+' 运算符的函数)

假设我添加了两个波动率值列表

n = 1000000
vs1 = Series(map(lambda x: Volatility(2*x-1.0), range(0,n)))
vs2 = Series(map(lambda x: Volatility(2*x+1.0), range(0,n))) 

(旁白:同样,Python 中的 Series 是一种带有索引的列表)现在我想添加这两个:

t1 = datetime.now()
vs3 = vs1 + vs2
t2 = datetime.now()
print t2-t1

只是加法在我的机器上运行了 3.8 秒,我给出的结果根本不包括对象初始化时间,它只是已经计时的加法代码。如果我使用 numpy 数组运行相同的东西:

nv1 = Series(map(lambda x: 2.0*x-1.0, range(0,n)))
nv2 = Series(map(lambda x: 2.0*x+1.0, range(0,n)))

t3 = datetime.now()
nv3 = numpy.sqrt((nv1*nv1+nv2*nv2))
t4 = datetime.now()
print t4-t3

它在 0.03 秒内运行。这比它快 100 倍!

正如你所看到的,OOP 方法给了我很多安全性,人们不会以错误的方式添加 Volatility,但是向量方法实在是太快了!有没有一种我可以同时获得的设计?我相信你们中的很多人都遇到过类似的设计选择,你是如何解决的?

这里的语言选择无关紧要。我知道你们中的很多人会建议使用 C++ 或 Java,而且代码可能比基于向量的语言运行得更快。但这不是重点。我需要使用 Python,因为我有许多其他语言没有的库。那是我的约束。我需要在其中进行优化。

而且我知道,很多人会建议并行化、gpgpu 等。但我想首先最大化单核性能,然后我可以并行化两个版本的代码。

提前致谢!

4

2 回答 2

3

您可以在矢量化操作之上进行抽象、封装、代码重用等(通过 OOP 或其他方式)。您只需要选择正确的粒度:您的单元抽象(对象)应该是多个值,以匹配矢量化实现。据我所知,没有复数的波动率,但对于您的特定用例,无论如何可能有一个更合适的术语(您的波动率值集是什么意思?)。

是的,这意味着性能问题会影响抽象和 API(但无论如何都会发生这种情况)。不,影响不是(必然)减少的抽象,甚至不是泄漏的抽象。它只是改变了抽象的形状。事实上,如果它只一次对所有值进行操作,这甚至可能为其余代码带来更方便的 API。

于 2013-06-04T11:56:06.427 回答
3

对于这些情况,一个可能的解决方案是退后一步:您真的需要或想要将单个值表示为对象吗?如果您的对象是 的整个数组(或系列)Volatile怎么办?你得到两全其美。

即使单个Volatile对象有一些用途,您也可以实现享元模式,其中Volatile对象只是数组中位置的包装,所有方法都将在数组上操作。

于 2013-06-04T11:53:36.877 回答