html - 如何使用 goquery 提取自定义 html 标签的文本？

Question

我正在尝试将文本提取为自定义 html 标记（<prelogin-cookie>）：

someHtml := `<html><body>Login Successful!</body><!-- <saml-auth-status>1</saml-auth-status><prelogin-cookie>4242424242424242</prelogin-cookie><saml-username>my-username</saml-username><saml-slo>no</saml-slo> --></html>`
query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
sel:= query.Find("prelogin-cookie")
println(sel.Text())

但它不返回任何东西，只是一个空字符串，我怎样才能得到那个 html 标签的实际文本，又名4242424242424242？

score 4 · Accepted Answer

<prelogin-cookie>找不到，因为它在 HTML 注释中。

您的评论实际上是一系列 XML 或 HTML 标签，如果您将其用作输入文档，它可能会被处理为 HTML。

警告。只有下面的第一个解决方案可以正确处理“所有”HTML 文档。其他解决方案更简单，也可以很好地处理您的情况，但它们可能无法处理某些极端情况。确定它们是否值得为您使用。

1.通过搜索HTML节点树

查找和提取注释的一种方法是遍历 HTML 节点树并查找类型为的节点html.CommentNode。

为此，我们将使用递归辅助函数来遍历节点树：

func findComment(n *html.Node) *html.Node {
    if n == nil {
        return nil
    }
    if n.Type == html.CommentNode {
        return n
    }
    if res := findComment(n.FirstChild); res != nil {
        return res
    }
    if res := findComment(n.NextSibling); res != nil {
        return res
    }
    return nil
}

并使用它：

doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
if err != nil {
    panic(err)
}

var comment *html.Node
for _, node := range doc.Nodes {
    if comment = findComment(node); comment != nil {
        break
    }
}
if comment == nil {
    fmt.Println("no comment")
    return
}

doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))
if err != nil {
    panic(err)
}

sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())

这将打印（在Go Playground上尝试）：

4242424242424242

2. 有`strings`

如果您只需要处理“手头的文档”，一个更简单的解决方案可能是只使用strings包来查找评论的开始和结束索引：

start := strings.Index(someHtml, "<!--")
if start < 0 {
    panic("no comment")
}
end := strings.Index(someHtml[start:], "-->")
if end < 0 {
    panic("no comment")
}

并将其用作输入：

doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))
if err != nil {
    panic(err)
}

sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())

这将输出相同的内容。在Go Playground上试一试）。

3.使用`regexp`

先前解决方案的一个更简单（但效率较低）的替代方案是使用正则表达式从原始文档中获取注释：

comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)
if len(comments) == 0 {
    fmt.Println("no comment")
    return
}

doc, err := goquery.NewDocumentFromReader(strings.NewReader(
    comments[0][4 : len(comments[0])-3]))

在Go Playground上试试这个。

html - 如何使用 goquery 提取自定义 html 标签的文本？

1 回答 1

1.通过搜索HTML节点树

2. 有strings

3.使用regexp

Related

Reference

2. 有`strings`

3.使用`regexp`