更具体地说,我有以下看起来无害的小 Repa 3 程序:
{-# LANGUAGE QuasiQuotes #-}
import Prelude hiding (map, zipWith)
import System.Environment (getArgs)
import Data.Word (Word8)
import Data.Array.Repa
import Data.Array.Repa.IO.DevIL
import Data.Array.Repa.Stencil
import Data.Array.Repa.Stencil.Dim2
main = do
[s] <- getArgs
img <- runIL $ readImage s
let out = output x where RGB x = img
runIL . writeImage "out.bmp" . Grey =<< computeP out
output img = map cast . blur . blur $ blur grey
where
grey = traverse img to2D luminance
cast n = floor n :: Word8
to2D (Z:.i:.j:._) = Z:.i:.j
---------------------------------------------------------------
luminance f (Z:.i:.j) = 0.21*r + 0.71*g + 0.07*b :: Float
where
(r,g,b) = rgb (fromIntegral . f) i j
blur = map (/ 9) . convolve kernel
where
kernel = [stencil2| 1 1 1
1 1 1
1 1 1 |]
convolve = mapStencil2 BoundClamp
rgb f i j = (r,g,b)
where
r = f $ Z:.i:.j:.0
g = f $ Z:.i:.j:.1
b = f $ Z:.i:.j:.2
在我的 2Ghz core 2 duo 笔记本电脑上处理 640x420 图像需要这么多时间:
real 2m32.572s
user 4m57.324s
sys 0m1.870s
我知道肯定有什么问题,因为我在使用 Repa 2 的更复杂的算法上获得了更好的性能。在该 API 下,我发现的重大改进来自于在每次数组转换之前添加对“强制”的调用(我理解表示每次调用映射、卷积、遍历等)。我不能完全弄清楚在 Repa 3 中要做的类似事情 - 事实上,我认为新的表现类型参数应该确保在何时需要强制数组时没有歧义?新的一元接口如何适应这个方案?我已阅读 Don S 的精彩教程,但 Repa 2 和 3 API 之间存在一些关键差距,在线 AFAIK 很少讨论。
更简单地说,是否有一种影响最小的方法来解决上述程序的效率问题?