haskell - Haskell ByteStrings - 最终将大文件加载到内存中

Question

问候，

我试图理解为什么我看到整个文件使用以下程序加载到内存中，但是如果您注释掉“（***）”下面的行，那么程序会在恒定（大约 1.5M）空间中运行。

编辑：该文件大约 660MB，第 26 列中的字段是一个日期字符串，如“2009-10-01”，并且有 100 万行。该过程在到达“getLine”时使用了大约 810MB

我是否认为它与使用“split”拆分字符串有关，并且以某种方式从文件中读取的底层 ByteString 不能被垃圾收集，因为它仍然被引用？但如果是这样，那么我认为 BS.copy 会解决这个问题。任何如何强制计算的想法 - 我似乎无法将“seq”放入正确的位置以产生效果。

（注意源文件是制表符分隔的行）

提前致谢，

凯文

module Main where

import System.IO
import qualified Data.ByteString.Lazy.Char8 as BS
import Control.Monad


type Record = BS.ByteString

importRecords :: String -> IO [Record]
importRecords filename = do
    liftM (map importRecord.BS.lines) (BS.readFile filename)

importRecord :: BS.ByteString -> Record
importRecord txt = r
  where 
    r = getField 26
    getField f = BS.copy $ ((BS.split '\t' txt) !! f)

loopInput :: [Record] -> IO ()
loopInput jrs = do
    putStrLn $ "Done" ++ (show $ last jrs)
    hFlush stdout
    x <- getLine
    return ()

    -- (***)
    loopInput jrs

main = do 
    jrs <- importRecords "c:\\downloads\\lcg1m.txt"
    loopInput jrs

score 3 · Accepted Answer

您对last强制列表的调用，jrs. 要弄清楚这一点，它必须遍历整个文件，为jrs. 因为您没有评估jrs（最后一个除外）中的每个元素，所以这些 thunk 与对字节串的引用一起挂起，因此必须保留在内存中。

解决方案是强制评估这些 thunk。因为我们谈论的是空间，所以我做的第一件事实际上是以更小的格式存储您的信息：

type Year   = Word16
type Month  = Word8
type Day    = Word8
data Record = Rec {-# UNPACK #-} !Year {-# UNPACK #-} !Month {-# UNPACK #-} !Day 
        deriving (Eq, Ord, Show, Read)

这将丑陋的 10 字节字节串（+ 约 16 字节结构信息的开销）减少到大约 8 字节。

importRecord现在必须调用toRecord r以获得正确的类型：

toRecord :: BS.ByteString -> Record
toRecord bs =
    case BS.splitWith (== '-') bs of
            (y:m:d:[]) -> Rec (rup y) (rup m) (rup d)
            _ -> Rec 0 0 0

rup :: (Read a) => BS.ByteString -> a
rup = read . BS.unpack

当我们从ByteStringto转换时，我们需要评估数据Record，所以让我们使用并行包并从DeepSeq定义一个 NFData 实例。

instance NFData Record where
    rnf (Rec y m d) = y `seq` m `seq` d `seq` ()

现在我们准备好了，我将 main 修改为 use evalList，从而将整个列表强制在您想要最后一个的函数之前：

main = do
    jrs <- importRecords "./tabLines"
    let jrs' = using jrs (evalList rdeepseq)
    loopInput jrs'

我们可以看到堆配置文件看起来很漂亮（并且top同意，程序使用的内存非常少）。

替代文字

很抱歉，其他~~误导性~~的错误答案 - 我被增量处理修复它的事实迷住了，并没有真正意识到 thunk 真的在徘徊，不知道为什么我的大脑滑过那个。尽管我确实坚持要点，但您应该逐步处理这些信息，使所有这些答案变得毫无意义。

仅供参考，巨大的字节串没有出现在我之前发布的那些堆配置文件中，因为ByteString堆分析器没有跟踪外部分配（包括）。

score 1 · Accepted Answer

这里似乎有两个问题：

为什么内存使用取决于行（***）的存在与否；
为什么带有（***）的内存使用量约为 800MB，而不是 40MB。

对于 TomMD 没有说的第一个，我真的不知道该说什么。在loopInput循环内部，jrs永远不能被释放，因为它需要作为递归调用的参数loopInput。（你知道return ()当 (***) 出现时它什么都不做，对吧？）

至于第二个问题，我认为输入 ByteString 没有被垃圾收集是对的。原因是除了最后一个之外，您永远不会评估列表中的元素jrs，因此它们仍然包含对原始 ByteString 的引用（即使它们的形式是BS.copy ...）。我认为替换show $ last jrs为show jrs会减少您的内存使用量；可以？或者，您可以尝试更严格的地图，例如

map' f []     = []
map' f (x:xs) = ((:) $! (f $! x)) (map' f xs)

将mapinimportRecords替换为map'并查看这是否会减少您的内存使用量。

haskell - Haskell ByteStrings - 最终将大文件加载到内存中

2 回答 2

Related

Reference