问题标签 [apify]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
599 浏览

apify - No `input` is fetched in the Apify cloud

I've loaded the project to the Apify cloud and as I run it with input, the problem is so funny: No input found!. It works smooth at my PC though.

Run log:

Input:

The code has a decent way to call for the INPUT:

The log shows the input variable is null...

Can you explain why?

0 投票
1 回答
1464 浏览

puppeteer - 使用 Apify Puppeteer 和 requestQueue 从 sitemap.xml 抓取 url

Apify 可以从 sitemap.xml 抓取链接

https://sdk.apify.com/docs/examples/puppeteersitemap#docsNav

但是,如果我使用 requestQueue,我不确定如何从 sitemap.xml 抓取链接。例如:

0 投票
2 回答
734 浏览

regex - Apify:PseudoUrl 正则表达式以匹配包含给定关键字的 url

Apify PseudoUrl支持 JavaScript 样式的正则表达式来匹配 URL。

我尝试按照 RegEx 匹配包含特定关键字的所有 url -

例如,如果一个网站有以下链接:

正则表达式应匹配最后 3 个网址。但是,正则表达式不起作用。

0 投票
1 回答
1048 浏览

apify - 从多个 sitemap.xml 文件中抓取 url

我正在为一个页面构建一个 apify 演员,其中所有需要的 url 都存储在不同的 sitemap.xml 文件中。文件名是静态的,但不知道如何将几个 sitemap.xml 文件添加到 actor。

下面是带有 1 个 xml 文件的工作代码。不知何故需要在多个 url 上做一个 for-each,但由于它们大约有 600 个,最好是通过从 csv 中提取所有站点地图,然后为每个 url 抓取,然后抓取每个 url。

每个 sitemap.xml 都有一个静态链接/名称,但它们的内容每天都在变化,站点地图中的 url 总数为 60-70.000,它是我最终需要获取的那些 url :-)

0 投票
2 回答
650 浏览

javascript - 为什么“context.Apify”未定义

我正在尝试学习如何在 Apify Web-Scraper Actor 中使用请求,但我不明白它是如何工作的。

我第一次用 Postman 做这个,我确实得到了我想要的结果,现在我想在 Apify 上做同样的事情。

我想获取与此请求对应的 Json 文件。相反,我收到一个错误:“无法读取未定义的属性‘请求’”

0 投票
1 回答
872 浏览

javascript - PuppeteerCrawler:多用户登录和抓取

我正在使用 Apify 和 PuppeteerCrawler 为多个用户抓取页面。我必须将每个用户登录到系统并抓取 5 页,然后注销并继续下一个用户。

最好的方法是什么 - 为每个用户调用爬虫或只调用一次爬虫并让它处理登录/注销?

我正在从https://sdk.apify.com/docs/examples/puppeteercrawler扩展示例并在 Apify 云中运行它。现在我正在更改request.userData对象,为其添加一个标签“登录”,因此可以最初处理登录案例。登录后,将要抓取的相关 5 个页面排队。

0 投票
1 回答
724 浏览

jquery - 如何使用 JQuery/Ajax 调用 Apify Google Search Scraper Task?

我正在apify/google-search-scraper通过他们的API电话学习使用。该文件在此处给出。

因为我是新手,所以我对他们的文档有点困惑。特别是我需要帮助来配置呼叫。它

url : 我应该在这里写什么?

数据:我应该在这里传递参数吗?

提前致谢。

0 投票
1 回答
757 浏览

ajax - 如何通过将 JSON 对象作为 POST 有效负载传递来覆盖 Apify 的演员输入配置?

尝试通过传递数据对象来覆盖 Apify 的 Google Scraper 演员的查询,如下所示。我收到 400 和 403 错误消息。当我删除数据播放负载时,它工作正常。然后它使用默认查询返回结果。

1)传递播放负载以覆盖查询参数的正确方法是什么。

2) 如何发送多个搜索查询,如“链接建设”、“链接建设服务”?

提前致谢。

0 投票
1 回答
847 浏览

ajax - 如何实现 Apify webhook?

需要帮助来实施 Apify webhook。完成一项任务需要一些时间。我想添加一个 Apify webhook 它将运行另一个任务但不知道如何做到这一点。

然后 webhook 将调用以下任务:

顺便说一句,如果我想实现我需要的方式有误,请告诉我你的建议。

0 投票
1 回答
913 浏览

web-scraping - Apify 中请求之间的延迟

Apify 的旧版 Crawler有一个randomWaitBetweenRequests选项:

此选项强制爬虫确保打开两个网页之间的最小时间间隔,以防止它使目标服务器过载。

Apify Actors 有类似的设置吗?如果是这样,它如何影响 Actor Units 计算?