concurrency - 为什么函数会提前返回？

Question

我刚刚开始学习围棋，并且一直在巡回演出。最后一个练习是编辑一个网络爬虫以并行且不重复爬取。

这是代码。我只更改了爬取和主要功能。所以我会发布这些以保持整洁。

    // Crawl uses fetcher to recursively crawl
    // pages starting with url, to a maximum of depth.
    var used = make(map[string]bool)
    var urlchan = make(chan string)
    func Crawl(url string, depth int, fetcher Fetcher) {
        // TODO: Fetch URLs in parallel.
        // Done: Don't fetch the same URL twice.
        // This implementation doesn't do either:
        done := make(chan bool)
        if depth <= 0 {
            return
        }
        body, urls, err := fetcher.Fetch(url)
        if err != nil {
            fmt.Println(err)
            return
        }
        fmt.Printf("\nfound: %s %q\n\n", url, body)
        go func() {
            for _, i := range urls {
                urlchan <- i
            }
            done <- true
        }()
        for u := range urlchan {
            if used[u] == false {
                used[u] = true
                go Crawl(u, depth-1, fetcher)
            }
            if <-done == true {
                break
            }
        }
        return
    }

    func main() {
        used["http://golang.org/"] = true
        Crawl("http://golang.org/", 4, fetcher)
    }

问题是当我运行程序时，爬虫在打印后停止

    not found: http://golang.org/cmd/

这仅在我尝试使程序并行运行时发生。如果我让它线性运行，那么所有的网址都会正确找到。

注意：如果我做的不对（我的意思是并行性），那么我道歉。

score 1 · Accepted Answer

小心goroutine。
因为当 main 例程或main()func 返回时，所有其他 goroutine 将立即被杀死。
你Crawl()看起来像递归，但它不是，这意味着它会立即返回，而不是等待其他Crawl()例程。而且您知道，如果由Crawl()调用的第一个main()返回，则该main()func 认为其任务已完成。
你可以做的是让main()func 等到最后一个Crawl()返回。sync包，或将chan有所帮助。

您可能可以看一下我几个月前所做的最后一个解决方案：

var store map[string]bool

func Krawl(url string, fetcher Fetcher, Urls chan []string) {
    body, urls, err := fetcher.Fetch(url)
    if err != nil {
        fmt.Println(err)
    } else {
        fmt.Printf("found: %s %q\n", url, body)
    }
    Urls <- urls
}

func Crawl(url string, depth int, fetcher Fetcher) {
    Urls := make(chan []string)
    go Krawl(url, fetcher, Urls)
    band := 1
    store[url] = true // init for level 0 done
    for i := 0; i < depth; i++ {
        for band > 0 {
            band--
            next := <- Urls
            for _, url := range next {
                if _, done := store[url] ; !done {
                    store[url] = true
                    band++
                    go Krawl(url, fetcher, Urls)
                }
            }
        }
    }
    return
}

func main() {
    store = make(map[string]bool)
    Crawl("http://golang.org/", 4, fetcher)
}

concurrency - 为什么函数会提前返回？

1 回答 1

Related

Reference