2

我有一系列问题,我想并行评估。这些问题使用与此非常相似的简单表达式类型来表达:

-- Expressions are either a constant value or two expressions
-- combined using a certain operation
data Expr 
    = Const NumType
    | Binary BinOp Expr Expr

-- The possible operations
data BinOp = Add | Sub | Mul | Div
    deriving (Eq)

这些表达式是即时构建的,应该评估为可能有效或无效的某个结果。这表示为在遇到无效结果时停止计算的 monad。

data Result a
    = Val { val :: a }
    | Exc { exc :: String }

instance Monad Result where
    return = Val
    (Exc e) >>= _ = (Exc e)
    (Val v) >>= g = g v

为了确定每个已解决问题的值,我有两个相关功能:

eval :: Expr -> Result NumType
score :: Expr -> NumType

最后,我解决了将返回 a 的函数[Expr]。这导致我的主要功能目前看起来像这样:

main :: IO ()
main = do
    strAvailableNumbers <- getLine
    strTargetNumber <- getLine
    let numbers = parseList strAvailableNumbers 
        target = parseTargetNumber strTargetNumber in
            sequence $ map (print) $ 
                solveHeuristic1 (Problem target numbers) [Add] [Sub] ++
                solveHeuristic2 (Problem target numbers) 

    return ()

基本思想是我从标准输入读取数字列表和目标数字,然后在标准输出上打印表达式。

但是我有两个问题要解决,但我不太确定它们之间的相关性:

  • 这些启发式算法完全不知道彼此,因此不知道score他们的解决方案是否高于其他任何解决方案。我想向 map 函数引入某种状态,Expr如果它的分数高于Expr之前打印的,则只打印新的。

  • 我想并行执行这些计算,并尝试通过使用(parMap rseq)而不是map,使用选项编译-threaded并使用运行它来实现+RTS -N2。结果是运行时间从 5 秒增加到 7 秒。不是我所期望time的,尽管显示 CPU 利用率更高。我想我没有正确使用parMap或使用++. 那么我将如何并行运行一个独立函数列表,每个函数返回一个元素列表?

更新:用完整的源代码创建了一个要点。

4

1 回答 1

3

这里的问题是,评估一个IO动作seq几乎什么都不做。因此,您只是按顺序运行事物,开销稍大。

你可以折射事物使它们再次纯净

main :: IO ()
main = do
    mapM_ (`seq` print "found it") -- make sure we're not 
                                   -- benchmarking printing stuff
          . concat
          . parMap rdeepseq (solve [1..10000000])
          $ [42, 42]

    return ()

NFData并添加to use的实例,rdeepseq这将全面评估事物

instance NFData BinOp -- Binop is just an enum, WHNF = NF

instance NFData Expr where
  rnf (Const a) = a `deepseq` ()
  rnf (Binary b e1 e2) = b `deepseq` e1 `deepseq` e2 `deepseq` ()

现在,如果我们运行它,我们会得到……一个stackoverflow。我充分增加了我们搜索的大小,以便实际花费足够长的时间来进行基准测试,现在将两个结构完全加载到内存中会破坏堆栈。将堆栈大小提高到我们不会炸毁所有东西的程度会使我们在使用-N2时比不使用时快 40%(3 秒对 5 秒)。我会考虑预期的结果。从视觉上看,当运行它时,我可以看到 2 个内核短暂地跃升至 100%。

最终编译序列

> ghc -O2 -threaded -rtsops bench.hs
> ./bench +RTS -K10000000 -N2
于 2013-11-06T20:10:06.960 回答