我在下面的代码中使用 go-colly 对弹性索引进行了哪些更改?
我想获取全文(剥离 html,剥离 js,如果需要,渲染),然后
使其符合 avro 模式 {pageurl: , title:, content:},
批量发布到特定的弹性搜索“mywebsiteindex-yyyymmdd” - 可能使用配置文件,而不是硬编码。
代码片段会很棒。是否有一个示例 go-colly 代码显示“流水线”输出 crawl->scraping->yield to elastic(例如在 python scrapy 框架中)。即流水线 框架支持。
为了插入弹性,我正在考虑:https://github.com/olivere/elastic?
func main() {
c := colly.NewCollector(
colly.AllowedDomains( "www.coursera.org"),
colly.Async(true),
)
c.Limit(&colly.LimitRule{
DomainGlob: "*",
Parallelism: 2,
})
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
link := e.Attr("href")
e.Request.Visit(link)
})
pageCount :=0
c.OnRequest(func(r *colly.Request) {
r.Ctx.Put("url", r.URL.String())
})
// Set error handler
c.OnError(func(r *colly.Response, err error) {
log.Println("Request URL:", r.Request.URL, "failed with response:", r, "\nError:", err)
})
// Print the response
c.OnResponse(func(r *colly.Response) {
pageCount++
urlVisited := r.Ctx.Get("url")
log.Println(fmt.Sprintf("%d DONE Visiting : %s", pageCount, urlVisited))
})
baseUrl := "https://www.coursera.org"
c.Visit(baseUrl)
}