go - Go Colly 不从网站返回任何数据

Question

我正在尝试制作一个简单的网络爬虫，但我似乎无法从 colly 获得最简单的功能。我从 colly docs 中获取了基本示例，虽然它与他们使用的hackernews.org 网站一起使用，但它不适用于我试图抓取的网站。我尝试了 URL 的几次迭代，即使用 https://、www。, 最后有 / 等等，但似乎没有任何效果。我尝试在 python 中用美丽的汤刮取同一个网站并得到了一切，所以我知道该网站可以被刮取。任何帮助表示赞赏。谢谢。

package main

import (
    "fmt"

    "github.com/gocolly/colly"
)

// main function  
func main() {
    /* instatiate colly */
    c := colly.NewCollector(
        colly.AllowedDomains("www.bjjheroes.com/"),
    )

    // On every a element which has href attribute call callback
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        fmt.Printf("Link found: %q \n", e.Text)
    })

    c.Visit("www.bjjheroes.com/a-z-bjj-fighters-list")
}

score 0 · Accepted Answer

“错误”是我的一部分，在添加后允许的域需要更多的变化

        colly.AllowedDomains(
                  "www.bjjheroes.com/", 
                  "bjjheroes.com/",
                  "https://bjjheroes.com/",
                  "www.bjjheroes.com", 
                  "bjjheroes.com",
                  "https://bjjheroes.com",
                ),

一切正常

go - Go Colly 不从网站返回任何数据

1 回答 1

Related

Reference