haskell - 为什么这个简单的haskell算法这么慢？

Question

剧透警告：这与Project Euler的问题 14有关。

以下代码需要大约 15 秒才能运行。我有一个在 1 秒内运行的非递归 Java 解决方案。我想我应该能够让这段代码更接近那个。

import Data.List

collatz a 1  = a
collatz a x
  | even x    = collatz (a + 1) (x `div` 2)
  | otherwise = collatz (a + 1) (3 * x + 1)

main = do
  print ((foldl1' max) . map (collatz 1) $ [1..1000000])

我已经分析+RHS -p并注意到分配的内存很大，并且随着输入的增长而增长。n = 100,000分配了 1gb（！），分配了13gb n = 1,000,000（！！）。

话又说回来，-sstderr尽管分配了很多字节，但总内存使用量为 1mb，生产力为 95%+，所以可能 13gb 是红鲱鱼。

我能想到几种可能：

有些事情没有它需要的那么严格。我已经发现了 foldl1'，但也许我需要做更多？是否可以标记collatz 为严格（这是否有意义？
collatz不是尾调用优化。我认为应该是，但不知道如何确认。
编译器没有做一些我认为应该做的优化——例如collatz，任何时候只有两个结果需要在内存中（最大和当前）

有什么建议么？

这几乎与为什么这个 Haskell 表达式这么慢？，尽管我会注意到快速 Java 解决方案不必执行任何记忆。有什么方法可以加快速度而不必求助于它？

作为参考，这是我的分析输出：

  Wed Dec 28 09:33 2011 Time and Allocation Profiling Report  (Final)

     scratch +RTS -p -hc -RTS

  total time  =        5.12 secs   (256 ticks @ 20 ms)
  total alloc = 13,229,705,716 bytes  (excludes profiling overheads)

COST CENTRE                    MODULE               %time %alloc

collatz                        Main                  99.6   99.4


                                                                                               individual    inherited
COST CENTRE              MODULE                                               no.    entries  %time %alloc   %time %alloc

MAIN                     MAIN                                                   1           0   0.0    0.0   100.0  100.0
 CAF                     Main                                                 208          10   0.0    0.0   100.0  100.0
  collatz                Main                                                 215           1   0.0    0.0     0.0    0.0
  main                   Main                                                 214           1   0.4    0.6   100.0  100.0
   collatz               Main                                                 216           0  99.6   99.4    99.6   99.4
 CAF                     GHC.IO.Handle.FD                                     145           2   0.0    0.0     0.0    0.0
 CAF                     System.Posix.Internals                               144           1   0.0    0.0     0.0    0.0
 CAF                     GHC.Conc                                             128           1   0.0    0.0     0.0    0.0
 CAF                     GHC.IO.Handle.Internals                              119           1   0.0    0.0     0.0    0.0
 CAF                     GHC.IO.Encoding.Iconv                                113           5   0.0    0.0     0.0    0.0

和-sstderr：

./scratch +RTS -sstderr 
525
  21,085,474,908 bytes allocated in the heap
      87,799,504 bytes copied during GC
           9,420 bytes maximum residency (1 sample(s))          
          12,824 bytes maximum slop               
               1 MB total memory in use (0 MB lost due to fragmentation)  

  Generation 0: 40219 collections,     0 parallel,  0.40s,  0.51s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time   35.38s  ( 36.37s elapsed)
  GC    time    0.40s  (  0.51s elapsed)
  RP    time    0.00s  (  0.00s elapsed)  PROF  time    0.00s  (  0.00s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time   35.79s  ( 36.88s elapsed)  %GC time       1.1%  (1.4% elapsed)  Alloc rate    595,897,095 bytes per MUT second

  Productivity  98.9% of total user, 95.9% of total elapsed

和 Java 解决方案（不是我的，取自 Project Euler 论坛，删除了记忆）：

public class Collatz {
  public int getChainLength( int n )
  {
    long num = n;
    int count = 1;
    while( num > 1 )
    {
      num = ( num%2 == 0 ) ? num >> 1 : 3*num+1;
      count++;
    }
    return count;
  }

  public static void main(String[] args) {
    Collatz obj = new Collatz();
    long tic = System.currentTimeMillis();
    int max = 0, len = 0, index = 0;
    for( int i = 3; i < 1000000; i++ )
    {
      len = obj.getChainLength(i);
      if( len > max )
      {
        max = len;
        index = i;
      }
    }
    long toc = System.currentTimeMillis();
    System.out.println(toc-tic);
    System.out.println( "Index: " + index + ", length = " + max );
  }
}

score 21 · Accepted Answer

起初，我认为您应该尝试在a in之前放置一个感叹号collatz：

collatz !a 1  = a
collatz !a x
  | even x    = collatz (a + 1) (x `div` 2)
  | otherwise = collatz (a + 1) (3 * x + 1)

（您需要将其放在{-# LANGUAGE BangPatterns #-}源文件的顶部才能正常工作。）

我的推理如下：问题是你在 collatz 的第一个参数中建立了一个巨大的thunk：它从开始1，然后变成1 + 1，然后变成(1 + 1) + 1，......所有这些都没有被强迫。这种bang 模式会在每次调用时强制第一个参数 ofcollatz被强制执行，因此它从 1 开始，然后变为 2，依此类推，而不会产生大量未评估的 thunk：它只是保持为整数。

请注意，爆炸模式只是使用的简写seq；在这种情况下，我们可以重写collatz如下：

collatz a _ | seq a False = undefined
collatz a 1  = a
collatz a x
  | even x    = collatz (a + 1) (x `div` 2)
  | otherwise = collatz (a + 1) (3 * x + 1)

这里的诀窍是强制a在守卫中，然后它总是评估为 False （因此身体是无关紧要的）。然后评估继续下一个案例，a已经被评估。但是，刘海模式更清晰。

不幸的是，当用编译时-O2，它的运行速度并不比原来的快！我们还能尝试什么？好吧，我们可以做的一件事是假设这两个数字永远不会溢出机器大小的整数，并给出collatz这个类型注释：

collatz :: Int -> Int -> Int

我们将把 bang 模式留在那里，因为我们仍然应该避免建立 thunk，即使它们不是性能问题的根源。这使我的（慢速）计算机上的时间缩短到 8.5 秒。

下一步是尝试使其更接近 Java 解决方案。首先要意识到的是，在 Haskell 中，div相对于负整数，其行为在数学上更正确，但比在 Haskell 中称为“正常”的 C 除法要慢quot。替换div为quot将运行时缩短到 5.2 秒，替换x `quot` 2为x `shiftR` 1（导入 Data.Bits）以匹配 Java 解决方案将其缩短到 4.9 秒。

这大约是我目前能得到的最低值，但我认为这是一个相当不错的结果；因为你的电脑比我的快，它应该更接近 Java 解决方案。

这是最终的代码（我在途中做了一些清理工作）：

{-# LANGUAGE BangPatterns #-}

import Data.Bits
import Data.List

collatz :: Int -> Int
collatz = collatz' 1
  where collatz' :: Int -> Int -> Int
        collatz' !a 1 = a
        collatz' !a x
          | even x    = collatz' (a + 1) (x `shiftR` 1)
          | otherwise = collatz' (a + 1) (3 * x + 1)

main :: IO ()
main = print . foldl1' max . map collatz $ [1..1000000]

查看该程序的 GHC 核心（带有ghc-core），我认为这可能是最好的；循环使用未装箱的collatz整数，程序的其余部分看起来没问题。我能想到的唯一改进是从map collatz [1..1000000]迭代中消除拳击。

顺便说一句，不要担心“total alloc”这个数字；它是在程序的整个生命周期内分配的总内存，即使 GC 回收该内存，它也不会减少。数 TB 的数字很常见。

score 2 · Accepted Answer

您可能会丢失列表和 bang 模式，但改用堆栈仍然可以获得相同的性能。

import Data.List
import Data.Bits

coll :: Int -> Int
coll 0 = 0
coll 1 = 1
coll 2 = 2
coll n =
  let a = coll (n - 1)
      collatz a 1 = a
      collatz a x
        | even x    = collatz (a + 1) (x `shiftR` 1)
        | otherwise = collatz (a + 1) (3 * x + 1)
  in max a (collatz 1 n)


main = do
  print $ coll 100000

这样做的一个问题是，对于大输入，您将不得不增加堆栈的大小，例如 1_000_000。

更新：

这是一个没有堆栈溢出问题的尾递归版本。

import Data.Word
collatz :: Word -> Word -> (Word, Word)
collatz a x
  | x == 1    = (a,x)
  | even x    = collatz (a + 1) (x `quot` 2)
  | otherwise = collatz (a + 1) (3 * x + 1)

coll :: Word -> Word
coll n = collTail 0 n
  where
    collTail m 1 = m
    collTail m n = collTail (max (fst $ collatz 1 n) m) (n-1)

注意使用Word代替Int。它在性能上有所不同。如果你愿意，你仍然可以使用爆炸模式，这将使性能几乎翻倍。

score 0 · Accepted Answer

我发现一件事在这个问题上产生了惊人的变化。我坚持直接的递归关系而不是折叠，你应该原谅这个表达，用它来计数。重写

collatz n = if even n then n `div` 2 else 3 * n + 1

作为

collatz n = case n `divMod` 2 of
            (n', 0) -> n'
            _       -> 3 * n + 1

在具有 2.8 GHz Athlon II X4 430 CPU 的系统上，我的程序的运行时间缩短了 1.2 秒。我最初的更快版本（使用 divMod 后 2.3 秒）：

{-# LANGUAGE BangPatterns #-}

import Data.List
import Data.Ord

collatzChainLen :: Int -> Int
collatzChainLen n = collatzChainLen' n 1
    where collatzChainLen' n !l
            | n == 1    = l
            | otherwise = collatzChainLen' (collatz n) (l + 1)

collatz:: Int -> Int
collatz n = case n `divMod` 2 of
                 (n', 0) -> n'
                 _       -> 3 * n + 1

pairMap :: (a -> b) -> [a] -> [(a, b)]
pairMap f xs = [(x, f x) | x <- xs]

main :: IO ()
main = print $ fst (maximumBy (comparing snd) (pairMap collatzChainLen [1..999999]))

一个可能更惯用的 Haskell 版本在大约 9.7 秒内运行（8.5 与 divMod）；它是相同的，除了

collatzChainLen :: Int -> Int
collatzChainLen n = 1 + (length . takeWhile (/= 1) . (iterate collatz)) n

使用 Data.List.Stream 应该允许流融合，这将使这个版本运行得更像是显式积累，但我找不到具有 Data.List.Stream 的 Ubuntu libghc* 包，所以我不能还要验证这一点。

haskell - 为什么这个简单的haskell算法这么慢？

3 回答 3

Related

Reference