3

我正在尝试使用 Pipes 编写一个 webscraper,我已经开始关注抓取的链接。我有一个process下载网址、查找链接并生成链接的功能。

process :: Pipe Item Item (StateT CState IO) ()
 ....
    for (each links) yield
 ....

现在我想了解如何递归地跟踪这些链接,将 StateT 贯穿。我意识到可能会做一些更惯用的事情,然后将单个管道用于大部分刮板(尤其是当我开始添加更多功能时),我愿意接受建议。无论如何,当我考虑使用共享状态的多线程时,我可能不得不重新考虑设计。

4

2 回答 2

4

您可以Pipe a b m r通过参数将 a 连接到副作用,该m参数会换出Monad管道正在运行的位置。您可以通过将管道的下游端连接到将链接粘贴在队列中的另一个管道并将管道的上游端连接到从队列中读取链接的管道来使用它来重新排队链接。

我们的目标是写

import Pipes

loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r

我们将采用一个管道,其下游输出 ,Either l b要么是Left l发送回上游的 a ,要么是发送Right b给下游的 a ,然后将ls 发送回上游输入Either l a,该输入要么是排队的,Left l要么是Right a来自上游的。我们将Left ls 连接在一起,形成一个管道,它只看到a来自上游的 s 并且只产生流向b下游的 s。

在下游端,我们将ls 从推入Left l堆栈。我们yield来自下游rRight r

import Control.Monad
import Control.Monad.Trans.State

pushLeft :: Monad m => Pipe (Either l a) a (StateT [l] m) r
pushLeft = forever $ do
    o <- await
    case o of
        Right a -> yield a
        Left l -> do
            stack <- lift get
            lift $ put (l : stack)

在上游端,我们将在堆栈顶部查找yield. 如果没有,我们await将从上游获取一个值yield

popLeft :: Monad m => Pipe a (Either l a) (StateT [l] m) r
popLeft = forever $ do
    stack <- lift get
    case stack of
        [] -> await >>= yield . Right
        (x : xs) -> do
            lift $ put xs
            yield (Left x)

现在我们可以写了loopLeft。我们将上游和下游管道与管道组合一起组成popLeft >-> hoist lift p >-> pushLeft。将hoist liftaPipe a b m r变为 a Pipe a b (t m) r。将distributeaPipe a b (t m) r变为 a t (Pipe a b m) r。回到 a我们从一个空的 stack 开始Pipe a b m r运行整个计算。其中和的组合有一个好听的名字。StateT[]Pipes.LiftevalStatePevalStateTdistribute

import Pipes.Lift

loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r
loopLeft p = flip evalStateT [] . distribute $ popLeft >-> hoist lift p >-> pushLeft
于 2016-07-22T00:59:51.650 回答
3

我会这样做:

import Pipes

type Url = String

getLinks :: Url -> IO [Url]
getLinks = undefined

crawl :: MonadIO m => Pipe Url Url m a
crawl = loop []
  where
    loop [] = do url <- await; loop [url]
    loop (url:urls) = do
      yield url
      urls' <- liftIO $ getLinks url
      loop (urls ++ urls')

您可以实现 DFS 或 BFS,具体取决于您url'urls.

于 2016-07-22T00:51:34.030 回答