我正在尝试使用chromedp 抓取一个网站,在某些时候有多个页面,我需要单击每个页面。我成功点击了第 2 页(每个页面都是一个<a href>
元素)并抓取了它的内容,但是当我的代码需要点击第 3 页时出现Could not find node with given id (-32000)
错误。
对于我在其他问题上看到的内容,它可能来自一个滞后的服务器,所以我已经测试waitVisible
并waitReady
在 HTML 元素上存储了我需要抓取的结果,但我仍然有这个问题。
我可能对导致此错误的原因有所了解,当我单击下一页的链接时,页面已刷新但 url 未刷新,因此我怀疑包含我的a href
链接的节点数组无效。
这是我实际尝试过的
ctxWithTimeOut, cancel := context.WithTimeout(ctx, time.Second*45)
defer cancel()
err = chromedp.Run(ctxWithTimeOut, chromedp.WaitVisible(".EnTeteTableau", chromedp.ByQuery))
if err != nil {
log.Printf("impossible de trouver l'élément .EnTeteTableau")
log.Fatal(err)
} else if numberOfPages > "1" {
log.Printf("dans le if page > 1")
err = chromedp.Run(ctx, chromedp.Sleep(time.Second*3))
if err != nil {
log.Fatal(err)
}
// Récupération des liens <a> des pages
var pages []*cdp.Node
err = chromedp.Run(ctx, chromedp.Nodes("td.pagination>a", &pages, chromedp.ByQueryAll))
if err != nil {
log.Fatal(err)
} else {
log.Printf("a trouvé les éléments paginations")
var specIDList []string
for _, v := range pages {
fmt.Println("nodes pages ", v)
log.Printf("dans le for, taille de page", len(pages))
// Récupération de chaques lignes du tableau
err = chromedp.Run(ctx, chromedp.Nodes(".light a, .dark a", &nodes, chromedp.ByQueryAll))
if err != nil {
log.Fatal(err)
}
specIDList = append(specIDList, getSpecID(nodes)...)
log.Println(specIDList)
err = chromedp.Run(ctx, chromedp.MouseClickNode(v))
if err != nil {
log.Fatal(err)
}
log.Printf("a cliqué")
// Après le clic sur la page suivante on a besoin d'attendre que le tableau s'affiche à nouveau sinon on déclenche l'erreur
// Could not find node with given id (-32000)
err = chromedp.Run(ctxWithTimeOut, chromedp.WaitVisible(".EnTeteTableau", chromedp.ByQuery))
fmt.Println(v.NodeID)
if err != nil {
log.Printf("impossible de trouver l'élément .EnTeteTableau")
log.Fatal(err)
}
// err = chromedp.Run(ctx, chromedp.Sleep(time.Second*3))
// if err != nil {
// log.Fatal(err)
// }
}
}