3

我正在尝试丰富数据,我为此提供的界面是一个网络表单。由于远程端的数据质量很差,我运行了一系列不同的搜索,直到找到匹配项。有时我会在第一个请求上获得成功,有时即使我尝试了 5 次不同的搜索,我也找不到任何东西。

我以为我可以使用 Clojures 惰性来缩短第一场比赛的搜索,但显然由于副作用,每次都要求所有 5 次不同的搜索。

这是我的问题的一个非常简单的再现:

(ns lazy-web-lookup.core
  (:require [clj-http.client :as http]))

(defn found?
  "Determines if the search was successful"
  [result]
  (= (:found result) "yes"))

(first (filter #(found? %) (map #(hash-map :no %
                                           :found (:body (http/get "http://localhost/random"))) [1 2 3 4 5])))

http://localhost/random随机返回字符串“yes”或“no”。

无论如何我可以调整上面的内容来做我想做的事,还是我叫错了树?

4

3 回答 3

4

实际上,只有分块的 seq 是分批(通常是1 个)32 个元素实现的。非分块序列一次实现一个。函数喜欢mapfilter保留其 seq 参数的分块/未分块“模式”。

因此,如果您确保将非分块序列传递给它们,则您可以使用常规的 Clojure 序列函数而不会影响任何数量的惰性。这里有两种可能的方法,其中第二种可能更适用于您的情况:

  1. 生成你的序列,不管它是否会被分块;然后,如果它恰好被分块,则将其包装在“unchunking seq”中:

    (defn unchunk [xs]
      (lazy-seq
        (if-let [xs (seq xs)]
          (cons (first xs) (unchunk (rest xs))))))
    
    user=> (->> (range 40) (unchunk) (map #(println "THIS IS" %)) first)
    THIS IS 0
    
    user=> (->> (range 40) (map #(println "THIS IS" %)) first)
    THIS IS 0
    THIS IS 1
    THIS IS 2
    ...
    

    要将这种方法与问题文本中的示例一起使用,您必须将 seq 拆分为 vector [1 2 3 4 5]

  2. 以某种不会对输出进行分块的方式生成初始序列(转换管道中最里面的序列)。这可能涉及明确编写您自己的生产者:

    (defn my-seq-producer [& args]
      (lazy-seq
        (if ...
          (cons (foo) (my-seq-producer ...))))
    

    这里要注意的关键是您将cons调用包装在条件 inside 中lazy-seq。如果条件中的测试不满足,则条件会产生nil,而惰性seq在实现时会变为空;否则(foo)将作为输出的第一个元素产生,然后是序列的“其余”部分,没有任何分块。

    特别是,如果您编写自己的生产者来生成通过 HTTP 获取的项目的惰性序列,您将能够使用核心序列函数对其进行转换,同时保持完全惰性。

判断哪个 seq 是分块的,哪个不是分块的最简单方法是使用该chunked-seq?函数,尽管有两个警告:

  1. 您可能应该使用chunked-seq?调用seq您感兴趣的任何 seq 的结果,而不是原始 seq 本身。这是因为您的 seq 可能是包装在LazySeq对象中的产生分块序列的 thunk。事实上,情况就是如此range

    (chunked-seq? (range 40))
    ;= false
    
    (chunked-seq? (seq (range 40)))
    ;= true
    
  2. 一个 seq 可能是部分分块的;例如,您可能会cons在分块序列的前面放置一些东西,从而产生一个没有分块的序列,但它仍然有一个分块的“休息”。Explicit unchunking 很高兴地处理了这个问题,因为它并没有真正检查底层 seq 是否被分块。


1考虑对尾部长度小于 32 个元素的向量的 seq。

于 2013-04-14T02:20:00.603 回答
2

正如其他答案中提到的,惰性序列是在批处理大小为 32 的批处理模式下实现的,对于您的特定问题,您可以使用普通的旧递归:

(loop [i [1 2 3 4 5]]
  (when (seq i)
    (let [body (-> (http/get "http://localhost/random")
                   :body)]
      (if (= body "yes")
        body
        (recur (rest i))))))
于 2013-04-13T16:24:55.333 回答
1

出于效率原因,惰性序列一次评估 32 个元素。尝试这个:

> (defn f [i] (= i 2))
#'sandbox10079/f
> (defn g [i] (println "THIS IS" i) i))
#'sandbox10079/g
> (defn h [x] (first (filter f (map g x))))
#'sandbox10079/h
> (h (range 40))
THIS IS 0
THIS IS 1
THIS IS 2
THIS IS 3
THIS IS 4
THIS IS 5
  ...
THIS IS 28
THIS IS 29
THIS IS 30
THIS IS 31
2
>  
于 2013-04-13T13:27:46.120 回答