12

修复和加速 API 相似性

Haskell repa 库用于在 CPU 上自动进行并行数组计算。加速库是 GPU 上的自动数据并行性。API 非常相似,具有相同的 N 维数组表示。fromRepa甚至可以使用和toRepain在加速和 repa 数组之间切换Data.Array.Accelerate.IO

fromRepa :: (Shapes sh sh', Elt e) => Array A sh e -> Array sh' e
toRepa   :: Shapes sh sh'          => Array sh' e  -> Array A sh e

有多个用于加速的后端,包括 LLVM、CUDA 和 FPGA(参见http://www.cse.unsw.edu.au/~keller/Papers/acc-cuda.pdf的图 2 )。我发现了一个用于加速的repa 后端,尽管该库似乎没有得到维护。鉴于repa 和Accelerator 编程模型相似,我希望有一种优雅的方式在它们之间切换,即编写一次的函数可以使用repa 的R.computeP 或Accel 的后端之一执行,例如使用CUDA运行函数。

两个非常相似的功能:南瓜上的 Repa 和 Accelerate

取一个简单的图像处理阈值函数。如果灰度像素值小于 50,则将其设置为 0,否则保留其值。这是它对南瓜的作用:

以下代码介绍了 repa 和加速实现:

module Main where

import qualified Data.Array.Repa as R
import qualified Data.Array.Repa.IO.BMP as R
import qualified Data.Array.Accelerate as A
import qualified Data.Array.Accelerate.IO as A
import qualified Data.Array.Accelerate.Interpreter as A

import Data.Word

-- Apply threshold over image using accelerate (interpreter)
thresholdAccelerate :: IO ()
thresholdAccelerate = do
  img <- either (error . show) id `fmap` A.readImageFromBMP "pumpkin-in.bmp"
  let newImg = A.run $ A.map evalPixel (A.use img)
  A.writeImageToBMP "pumpkin-out.bmp" newImg
    where
      -- *** Exception: Prelude.Ord.compare applied to EDSL types
      evalPixel :: A.Exp A.Word32 -> A.Exp A.Word32
      evalPixel p = if p > 50 then p else 0

-- Apply threshold over image using repa
thresholdRepa :: IO ()
thresholdRepa = do
  let arr :: IO (R.Array R.U R.DIM2 (Word8,Word8,Word8))
      arr = either (error . show) id `fmap` R.readImageFromBMP "pumpkin-in.bmp" 
  img <- arr
  newImg <- R.computeP (R.map applyAtPoint img)
  R.writeImageToBMP "pumpkin-out.bmp" newImg
  where
    applyAtPoint :: (Word8,Word8,Word8) -> (Word8,Word8,Word8)
    applyAtPoint (r,g,b) =
        let [r',g',b'] = map applyThresholdOnPixel [r,g,b]
        in (r',g',b')
    applyThresholdOnPixel x = if x > 50 then x else 0

data BackendChoice = Repa | Accelerate

main :: IO ()
main = do
  let userChoice = Repa -- pretend this command line flag
  case userChoice of
    Repa       -> thresholdRepa
    Accelerate -> thresholdAccelerate

问题:我可以只写一次吗?

thresholdAccelerate和的实现thresholdRepa非常相似。是否有一种优雅的方法可以编写一次数组处理函数,然后以编程方式在交换机中选择多核 CPU(repa)或 GPU(加速)?我可以考虑根据我想要 CPU 还是 GPU 来选择我的导入,即导入或者Data.Array.Accelerate.CUDA执行Data.Array.Repa以下类型的操作Acc a

run :: Arrays a => Acc a -> a

或者,使用类型类,例如大致如下:

main :: IO ()
main = do
  let userChoice = Repa -- pretend this is a command line flag
  action <- case userChoice of
    Repa       -> applyThreshold :: RepaBackend ()
    Accelerate -> applyThreshold :: CudaBackend ()
  action

或者是这样的情况,对于我希望为 CPU 和 GPU 表达的每个并行数组函数,我必须实现它两次——一次使用 repa 库,另一次使用加速库?

4

2 回答 2

9

简短的回答是,目前,不幸的是,您需要编写这两个版本。

但是,我们正在努力为 Accelerate 提供 CPU 支持,这将消除对代码的 Repa 版本的需求。特别是,Accelerate 最近获得了一个新的基于 LLVM 的后端,它同时针对 GPU 和 CPU:https ://github.com/AccelerateHS/accelerate-llvm

这个新的后端仍然是不完整的、有缺陷的和实验性的,但我们正计划使其成为当前 CUDA 后端的可行替代方案。

于 2014-04-22T20:46:43.880 回答
3

一年零几个月前,我在设计时考虑过这个问题yarr。那时,类型族推断或类似的东西(我不记得确切)存在严重问题,这阻止了有效地实现vector, repa, yarr,accelerate等的统一包装器,并且不允许编写太多显式类型签名,或者原则上实现(我不记得了)。

那是 GHC 7.6。我不知道 GHC 7.8 在这个领域是否有有意义的改进。理论上我没有看到任何问题,因此我们可以期待这样的东西有一天,无论是短期还是长期,当 GHC 准备好时。

于 2014-04-21T20:13:35.967 回答