2

我正在尝试制作一个简单的网络爬虫,但我似乎无法从 colly 获得最简单的功能。我从 colly docs 中获取了基本示例,虽然它与他们使用的hackernews.org 网站一起使用,但它不适用于我试图抓取的网站。我尝试了 URL 的几次迭代,即使用 https://、www。, 最后有 / 等等,但似乎没有任何效果。我尝试在 python 中用美丽的汤刮取同一个网站并得到了一切,所以我知道该网站可以被刮取。任何帮助表示赞赏。谢谢。

package main

import (
    "fmt"

    "github.com/gocolly/colly"
)

// main function  
func main() {
    /* instatiate colly */
    c := colly.NewCollector(
        colly.AllowedDomains("www.bjjheroes.com/"),
    )

    // On every a element which has href attribute call callback
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        fmt.Printf("Link found: %q \n", e.Text)
    })

    c.Visit("www.bjjheroes.com/a-z-bjj-fighters-list")
}
4

1 回答 1

0
  • “错误”是我的一部分,在添加后允许的域需要更多的变化
        colly.AllowedDomains(
                  "www.bjjheroes.com/", 
                  "bjjheroes.com/",
                  "https://bjjheroes.com/",
                  "www.bjjheroes.com", 
                  "bjjheroes.com",
                  "https://bjjheroes.com",
                ),

一切正常

于 2021-12-25T09:30:20.357 回答