问题标签 [go-colly]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
167 浏览

go - 如何使用 Golang Colly 登录亚马逊

我正在尝试登录我的亚马逊买家帐户以获取跟踪信息。我做了 wordpress-woocommerce 登录并获取信息,但我不能登录亚马逊。

Wordpress 登录一页 - 亚马逊登录两页。我们可能需要为亚马逊滚动 2 页 https://i.stack.imgur.com/4TNj5.png -> Wordpress 登录(一页)
https://i.stack.imgur.com/bhE4m.png -> 亚马逊登录(第 1 页 - 邮件)
https://i.stack.imgur.com/0BFcA.png -> 亚马逊登录(第 1 页 - 密码)

0 投票
1 回答
121 浏览

selenium - 使用 Colly | 单击按钮/下拉菜单 戈朗

有没有办法在 go 中使用 colly “单击”按钮?我基本上需要从动态网站上抓取数据,例如“打开下拉菜单”,点击不同的选项,以便网站的其他部分更新。这可以使用 Python / Selenium 轻松完成,但我想测试 colly。谢谢你的帮助!

0 投票
0 回答
126 浏览

json - 将 cookie 从 Go Rod(无头浏览器)传递给请求,Colly cookiejar

我正在尝试将 cookie 从 golang 中的无头浏览器传递到请求包 cookiejar。我需要使用无头浏览器获取一些 JS 生成的 cookie,然后传递给请求模块。

我目前有这个将无头浏览器 cookie 导出到 JSON 文件,但我不确定如何将它们动态添加到 cookie jar 以继续使用 requests 模块执行任务。

data 变量以下列格式返回 cookie:

0 投票
1 回答
336 浏览

go - 从 colly web 抓取中的相同类名值中获取值

我正在使用 Go 语言和内置在 Go 中的 colly 网络抓取框架开发小型网络抓取应用程序

这是网站的html代码

现在我想一一获取所有三个跨度元素并附加到数组

我尝试使用此代码但它不起作用但它返回AsiaAfrica
但我想要单独的值并想要获取 countrybg 类的图像 url

示例输出应该像

任何人都可以帮助得到这个

0 投票
1 回答
151 浏览

html - 如何用 colly 刮取属性中的属性

我尝试抓取产品的 productId,但我不能。请帮忙

html代码

当我尝试

结果是{"merchantName":"xxx","price":"11","productName":"car window","categoryName":"windows","brandName":"aa assosiations","productId":"which I want to scrape"}

当我尝试

没有结果。如何用 colly 获取这些数据?

0 投票
2 回答
174 浏览

go - 我不能用 colly go 抓取福布斯顶级亿万富翁网站

这是我的代码,当我请求我得到后备页面时,这是我试图抓取的福布斯链接

我注意到该网站使用的哈希路径位于 url 的最后一部分,我不能用相同的 url 请求两次,我认为它与抓取有关,有人可以帮我吗?

0 投票
1 回答
51 浏览

go - 在 Go 中使用 cron 定期运行 Colly web scraper

我正在使用 colly 进行一些网络抓取,但想使用 cron 定期运行它。我确实尝试了一种基本的方法。

它似乎不起作用,拨打一次电话并且不会定期拨打下一次电话。不确定我是否错过了什么。有没有其他可以采取的方法?

任何帮助,将不胜感激。

谢谢!

0 投票
0 回答
76 浏览

list - 如何使用 go-colly 抓取无序列表?

我正在尝试建立一个个人的食物食谱刮刀。我能够获得所有其他元素,但无序列表中的食品成分除外。这是页面html的片段: pagehtml

到目前为止,我的代码没有找到强元素,但会打印“找到的成分”。

我尝试了不同的方法来获取这些元素,但到目前为止还没有运气。我注意到在检查页面 html 时存在数据差异。在“Inspect -> elements”下,html 如图所示,但在“Inspect->Source->pagename”中,html 代表:

那么我的代码中没有收到成分或页面构建方式的原因是什么?我是一个完全的菜鸟,不明白为什么 html 在元素和源代码中看起来不同。寻找任何线索让它工作。谢谢,一切顺利!

0 投票
1 回答
66 浏览

go - Go Colly 不从网站返回任何数据

我正在尝试制作一个简单的网络爬虫,但我似乎无法从 colly 获得最简单的功能。我从 colly docs 中获取了基本示例,虽然它与他们使用的hackernews.org 网站一起使用,但它不适用于我试图抓取的网站。我尝试了 URL 的几次迭代,即使用 https://、www。, 最后有 / 等等,但似乎没有任何效果。我尝试在 python 中用美丽的汤刮取同一个网站并得到了一切,所以我知道该网站可以被刮取。任何帮助表示赞赏。谢谢。

0 投票
1 回答
63 浏览

go - Request.Visit 和collector.Visit 之间的Colly 区别

我编写了一个 colly 脚本来从站点收集端口授权信息。

我有以下两个问题:

  1. 此外,我有点被迫使用e.Request.Visit,因为d.Visit(如果我克隆 c)没有被执行。我看到当我将 c 克隆为 d 并用于获取“端口信息”部分时,整个块都被跳过了。我在这里做错了什么/为什么会出现这种行为?

  2. 在当前代码中,fmt.Println("Port Authority: ", portAuth)get 执行了两次。我得到如下打印:

同样,我无法理解为什么它会被打印两次。请帮助:)