我正在尝试制作一个简单的网络爬虫,但我似乎无法从 colly 获得最简单的功能。我从 colly docs 中获取了基本示例,虽然它与他们使用的hackernews.org 网站一起使用,但它不适用于我试图抓取的网站。我尝试了 URL 的几次迭代,即使用 https://、www。, 最后有 / 等等,但似乎没有任何效果。我尝试在 python 中用美丽的汤刮取同一个网站并得到了一切,所以我知道该网站可以被刮取。任何帮助表示赞赏。谢谢。
package main
import (
"fmt"
"github.com/gocolly/colly"
)
// main function
func main() {
/* instatiate colly */
c := colly.NewCollector(
colly.AllowedDomains("www.bjjheroes.com/"),
)
// On every a element which has href attribute call callback
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
fmt.Printf("Link found: %q \n", e.Text)
})
c.Visit("www.bjjheroes.com/a-z-bjj-fighters-list")
}