html-parsing - 如何获取 html.Node 的内容

Question

我想使用来自http://godoc.org/code.google.com/p/go.net/htmlGO的3rd 方库从URL 获取数据。但是我遇到了一个问题，就是我无法获取 html.Node 的内容。

参考文档中有一个示例代码，这里是代码。

s := `<p>Links:</p><ul><li><a href="foo">Foo</a><li><a href="/bar/baz">BarBaz</a></ul>`
doc, err := html.Parse(strings.NewReader(s))
if err != nil {
    log.Fatal(err)
}
var f func(*html.Node)
f = func(n *html.Node) {
    if n.Type == html.ElementNode && n.Data == "a" {
        for _, a := range n.Attr {
            if a.Key == "href" {
                fmt.Println(a.Val)
                break
            }
        }
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        f(c)
    }
}
f(doc)

输出是：

foo
/bar/baz

如果我想得到

Foo
BarBaz

我应该怎么办？

score 7 · Accepted Answer

树的<a href="link"><strong>Foo</strong>Bar</a>外观基本上是这样的：

ElementNode "a"（这个节点还包括一个关闭属性的列表）
- ElementNode“强”
  - 文本节点“Foo”
- 文本节点“栏”

因此，假设您想要获取链接的纯文本（例如FooBar），您将不得不穿过树并收集所有文本节点。例如：

func collectText(n *html.Node, buf *bytes.Buffer) {
    if n.Type == html.TextNode {
        buf.WriteString(n.Data)
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        collectText(c, buf)
    }
}

以及您功能的变化：

var f func(*html.Node)
f = func(n *html.Node) {
    if n.Type == html.ElementNode && n.Data == "a" {
        text := &bytes.Buffer{}
        collectText(n, text)
        fmt.Println(text)
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        f(c)
    }
}

html-parsing - 如何获取 html.Node 的内容

1 回答 1

Related

Reference