1

我写了一个代理,问题是网站上的某些链接没有方案,例如谷歌:

<a class="ab_dropdownlnk" href="//www.google.com/support/websearch/?source=g&amp;hl=en">

我通过 Client.Do() 获取 url
如何在 Go 中解析此类 url?

4

2 回答 2

3

如果没有方案,则使用合理的默认值。例如,

package main

import (
    "fmt"
    "io/ioutil"
    "log"
    "net/http"
    "net/url"
)

func main() {
    href := "//www.google.com/support/websearch/?source=g&amp;hl=en"
    url, err := url.Parse(href)
    if err != nil {
        log.Fatal(err)
    }
    if url.Scheme == "" {
        url.Scheme = "http"
    }
    req, err := http.NewRequest("GET", url.String(), nil)
    if err != nil {
        log.Fatal(err)
    }
    client := http.Client{}
    res, err := client.Do(req)
    if err != nil {
        log.Fatal(err)
    }
    websearch, err := ioutil.ReadAll(res.Body)
    res.Body.Close()
    if err != nil {
        log.Fatal(err)
    }
    fmt.Printf("%s\n", websearch)
}
于 2013-04-21T22:43:55.513 回答
2

缺少的方案允许浏览器选择协议,并且对于同时提供 http 和 https 的站点很方便。然后浏览器根据他如何到达页面来选择使用哪个协议。您可以使用 https 或 http 作为默认值,也可以像浏览器一样使用并选择用于获取页面的协议。

例如,像这样:

for _, parsedLink := range parsedLinks {
    parsedLink.Scheme = requestUrl.Scheme
}
于 2013-04-21T22:45:23.560 回答