问题标签 [apify]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apify - No `input` is fetched in the Apify cloud
I've loaded the project to the Apify cloud and as I run it with input, the problem is so funny: No input
found!. It works smooth at my PC though.
Run log:
Input:
The code has a decent way to call for the INPUT:
The log shows the input variable is null
...
Can you explain why?
puppeteer - 使用 Apify Puppeteer 和 requestQueue 从 sitemap.xml 抓取 url
Apify 可以从 sitemap.xml 抓取链接
https://sdk.apify.com/docs/examples/puppeteersitemap#docsNav
但是,如果我使用 requestQueue,我不确定如何从 sitemap.xml 抓取链接。例如:
regex - Apify:PseudoUrl 正则表达式以匹配包含给定关键字的 url
Apify PseudoUrl支持 JavaScript 样式的正则表达式来匹配 URL。
我尝试按照 RegEx 匹配包含特定关键字的所有 url -
例如,如果一个网站有以下链接:
正则表达式应匹配最后 3 个网址。但是,正则表达式不起作用。
apify - 从多个 sitemap.xml 文件中抓取 url
我正在为一个页面构建一个 apify 演员,其中所有需要的 url 都存储在不同的 sitemap.xml 文件中。文件名是静态的,但不知道如何将几个 sitemap.xml 文件添加到 actor。
下面是带有 1 个 xml 文件的工作代码。不知何故需要在多个 url 上做一个 for-each,但由于它们大约有 600 个,最好是通过从 csv 中提取所有站点地图,然后为每个 url 抓取,然后抓取每个 url。
每个 sitemap.xml 都有一个静态链接/名称,但它们的内容每天都在变化,站点地图中的 url 总数为 60-70.000,它是我最终需要获取的那些 url :-)
javascript - 为什么“context.Apify”未定义
我正在尝试学习如何在 Apify Web-Scraper Actor 中使用请求,但我不明白它是如何工作的。
我第一次用 Postman 做这个,我确实得到了我想要的结果,现在我想在 Apify 上做同样的事情。
我想获取与此请求对应的 Json 文件。相反,我收到一个错误:“无法读取未定义的属性‘请求’”
javascript - PuppeteerCrawler:多用户登录和抓取
我正在使用 Apify 和 PuppeteerCrawler 为多个用户抓取页面。我必须将每个用户登录到系统并抓取 5 页,然后注销并继续下一个用户。
最好的方法是什么 - 为每个用户调用爬虫或只调用一次爬虫并让它处理登录/注销?
我正在从https://sdk.apify.com/docs/examples/puppeteercrawler扩展示例并在 Apify 云中运行它。现在我正在更改request.userData对象,为其添加一个标签“登录”,因此可以最初处理登录案例。登录后,将要抓取的相关 5 个页面排队。
jquery - 如何使用 JQuery/Ajax 调用 Apify Google Search Scraper Task?
我正在apify/google-search-scraper
通过他们的API
电话学习使用。该文件在此处给出。
因为我是新手,所以我对他们的文档有点困惑。特别是我需要帮助来配置呼叫。它
url : 我应该在这里写什么?
数据:我应该在这里传递参数吗?
提前致谢。
ajax - 如何通过将 JSON 对象作为 POST 有效负载传递来覆盖 Apify 的演员输入配置?
尝试通过传递数据对象来覆盖 Apify 的 Google Scraper 演员的查询,如下所示。我收到 400 和 403 错误消息。当我删除数据播放负载时,它工作正常。然后它使用默认查询返回结果。
1)传递播放负载以覆盖查询参数的正确方法是什么。
2) 如何发送多个搜索查询,如“链接建设”、“链接建设服务”?
提前致谢。
ajax - 如何实现 Apify webhook?
需要帮助来实施 Apify webhook。完成一项任务需要一些时间。我想添加一个 Apify webhook 它将运行另一个任务但不知道如何做到这一点。
然后 webhook 将调用以下任务:
顺便说一句,如果我想实现我需要的方式有误,请告诉我你的建议。
web-scraping - Apify 中请求之间的延迟
Apify 的旧版 Crawler有一个randomWaitBetweenRequests
选项:
此选项强制爬虫确保打开两个网页之间的最小时间间隔,以防止它使目标服务器过载。
Apify Actors 有类似的设置吗?如果是这样,它如何影响 Actor Units 计算?