虽然我有一个很好的 LSFR C 实现,但我想我会在 Haskell 中尝试同样的方法——只是为了看看它是如何进行的。到目前为止,我想出的比 C 实现慢两个数量级,这就引出了一个问题:如何提高性能?显然,位摆弄操作是瓶颈,分析器证实了这一点。
这是使用列表和的基线 Haskell 代码Data.Bits
:
import Control.Monad (when)
import Data.Bits (Bits, shift, testBit, xor, (.&.), (.|.))
import System.Environment (getArgs)
import System.Exit (exitFailure, exitSuccess)
tap :: [[Int]]
tap = [
[], [], [], [3, 2],
[4, 3], [5, 3], [6, 5], [7, 6],
[8, 6, 5, 4], [9, 5], [10, 7], [11, 9],
[12, 6, 4, 1], [13, 4, 3, 1], [14, 5, 3, 1], [15, 14],
[16,15,13,4], [17, 14], [18, 11], [19, 6, 2, 1],
[20, 17], [21, 19], [22, 21], [23, 18],
[24,23,22,17], [25, 22], [26, 6, 2, 1], [27, 5, 2, 1],
[28, 25], [29, 27], [30, 6, 4, 1], [31, 28],
[32,22,2,1], [33,20], [34,27,2,1], [35,33],
[36,25], [37,5,4,3,2,1],[38,6,5,1], [39,35],
[40,38,21,19], [41,38], [42,41,20,19], [43,42,38,37],
[44,43,18,17], [45,44,42,41], [46,45,26,25], [47,42],
[48,47,21,20], [49,40], [50,49,24,23], [51,50,36,35],
[52,49], [53,52,38,37], [54,53,18,17], [55,31],
[56,55,35,34], [57,50], [58,39], [59,58,38,37],
[60,59], [61,60,46,45], [62,61,6,5], [63,62] ]
xor' :: [Bool] -> Bool
xor' = foldr xor False
mask :: (Num a, Bits a) => Int -> a
mask len = shift 1 len - 1
advance :: Int -> [Int] -> Int -> Int
advance len tap lfsr
| d0 = shifted
| otherwise = shifted .|. 1
where
shifted = shift lfsr 1 .&. mask len
d0 = xor' $ map (testBit lfsr) tap'
tap' = map (subtract 1) tap
main :: IO ()
main = do
args <- getArgs
when (null args) $ fail "Usage: lsfr <number-of-bits>"
let len = read $ head args
when (len < 8) $ fail "No need for LFSR"
let out = last $ take (shift 1 len) $ iterate (advance len (tap!!len)) 0
if out == 0 then do
putStr "OK\n"
exitSuccess
else do
putStr "FAIL\n"
exitFailure
基本上,它测试为任何给定位长度定义的LSFRtap :: [[Int]]
是否具有最大长度。(更准确地说,它只是检查 LSFR 在 2 n次迭代后是否达到初始状态(零) 。)
根据分析器,最昂贵的线路是反馈位d0 = xor' $ map (testBit lfsr) tap'
。
到目前为止我已经尝试过:
- use
Data.Array
: 尝试放弃,因为没有 foldl/r - 使用
Data.Vector
:比基线略快
我使用的编译器选项是:-O2
, LTS Haskell 8.12 (GHC-8.0.2)
.
参考 C++ 程序可以在gist.github.com上找到。
不能期望 Haskell 代码(?)运行得和 C 代码一样快,但是两个数量级太多了,必须有更好的方法来做位摆弄。
更新:应用答案中建议的优化的结果
- 输入为 28 的参考 C++ 程序,使用 LLVM 8.0.0 编译,在我的机器上运行 0.67 秒(与 clang 3.7 相同,稍慢,0.68 秒)
- 基线 Haskell 代码运行速度慢约 100 倍(由于空间效率低下,请勿尝试使用大于 25 的输入)
- 随着@Thomas M. DuBuisson的重写,仍然使用默认的 GHC 后端,执行时间下降到 5.2s
- 随着@Thomas M. DuBuisson的重写,现在使用 LLVM 后端(GHC 选项
-O2 -fllvm
),执行时间下降到 1.7 秒- 使用 GHC 选项
-O2 -fllvm -optlc -mcpu=native
将这个时间缩短到 0.73 秒
- 使用 GHC 选项
- 当使用 Thomas 的代码(使用默认的“本机”后端和 LLVM)时,替换
iterate
为iterate'
@cirdec 没有任何区别。但是,使用基线代码时确实会有所不同。
所以,我们已经从 100x 到 8x 再到 1.09x,即仅比 C 慢 9%!
注意
GHC 8.0.2 的 LLVM 后端需要 LLVM 3.7。在 Mac OS X 上,这意味着使用brew
和符号链接安装此版本。见7.10。GHC 后端。opt
llc