问题标签 [apify]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
717 浏览

apify - 使用 APIFY 抓取数据并显示存储的数据

我已经抓取了一个网站,它显示操作成功,但没有显示任何内容。它告诉我,数据集中的结果是空的。

0 投票
1 回答
724 浏览

apify - 语义版本控制

我想使用一个行为的语义版本控制,但我不熟悉它,想学习专业的方法。所以我有以下问题:

  1. 如果 Fork-Link 已停用,我如何将版本发送到例如 1.0(请参阅屏幕截图)。
  2. 推荐的版本控制工作流程如何?
  3. Apify-Versioning 和 package.json 中的版本号对应的是谁?
  4. “删除”链接实际上删除了什么,整个行为,版本或版本号?

问候 Wulfgäääng

在此处输入图像描述

0 投票
1 回答
1072 浏览

web-scraping - 如何将任何 URL 传递给 APIFY 任务?

APIFY 中有一个用于配置“起始 URL”的框,但是如果我不知道起始 URL 会发生什么,这取决于我的用户输入?我希望能够将变量 URL 传递给“起始 URL”

APIFY 中启动 URL 的配置:

在此处输入图像描述

我想通过 APIFY 任务自动传递任何 URL,然后将其废弃。

我尝试通过 Zapier 自动完成,在配置中可以选择 URL 输入并将其传递给 APIFY,但最后它停止了任务,因为无法读取传递的格式。Zapier的数据输出日志:

在此处输入图像描述

我认为 APIFY 可能允许配置动态输入 URL,但就我的初学者而言,可能有一些东西超出了我的知识范围。

我希望能够传递要被 APIFY 抓取的变量 URL。

0 投票
2 回答
1209 浏览

javascript - 使用 Apify 进行网页抓取

我正在尝试从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL

具体来说,我正在尝试使用 Apify 来抓取该页面并从 HTML 中存在的锚标记返回 URL 列表。在我的控制台中,我希望href在名为myValue. 我还希望在名为 的属性中看到页面标题title。相反,我只看到以下URL属性及其值。

在此处输入图像描述

我的 Apify 演员使用 Puppeteer 平台。所以我正在使用pageFunction 类似于 Puppeteer 使用它的方式

下面是我运行之前 Apify UI 的屏幕截图。

在此处输入图像描述

页面功能

我究竟做错了什么?

0 投票
1 回答
1046 浏览

javascript - 使用 Apify 和 Puppeteer 抓取 URL

我正在尝试使用名为“web-scraper” (https://apify.com/apify/web-scraper的 Apify 演员从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL

具体来说,我正在尝试使用以下 ApifypageFunction来抓取该目标页面并从 HTML 中存在的锚标记返回 URL 列表。

页面函数

在我的控制台中,我希望href在名为anchorTag. 我还希望在名为pageTitle的属性和url属性中看到页面标题。如下:

我期望看到的:

但是,参与者返回的不是 URL 列表,而是以下数据集:

我实际看到的:

我究竟做错了什么?

0 投票
1 回答
955 浏览

javascript - 如何使用 Apify 和 Puppeteer 构建成功的网络抓取结果?

使用 Apify 和 Puppeteer,我想从以下 URL 抓取数据表:

https://en.wikipedia.org/wiki/List_of_hedge_funds

我希望结果是一个对象数组。数组的每个元素应该代表<tr>原始数据源表的每一行,并且是一个具有以下属性的 JS 对象。

在哪里:

  • firmName是每行.innerText()的第一个元素。<td>
  • firmUrl是每行href第一个元素的属性。<td>
  • hq是每行. innerText()的第二个元素。<td>
  • hqUrl是每一行的第二个元素的href属性。<td>
  • aum是每一行. innerText()的第三个<td>元素。

具体来说,例如,我希望看到以下对象返回给我。

我想看到的,替代A:

或者,或者,对象可能如下(我不知道哪个是可能的,这是我困惑的一部分)

我想看到的,备选方案 B:

但相反,我实际上看到了以下结果。

我实际看到的:

我使用以下代码作为我的pageFunction.

页面函数

我需要如何更改我的代码?

0 投票
1 回答
784 浏览

puppeteer - apify中page.on函数的响应是什么?

response函数中有什么page.on

在第 17 行的“ https://github.com/vdrmota/actor-twitter-scraper/blob/master/src/scraper.js ”示例中,您检查response.url包含"/timeline/profile/".

page.url()https://twitter.com/${handle}/with_replies。_ 那么为什么要在第 17 行检查 URL 包含的内容"/timeline/profile/"呢?

0 投票
2 回答
965 浏览

apify - 从 sitemap.xml 抓取每个链接

我是 Apify 的新手。

我想抓取每个链接sitemap.xml

更具体地说:我有以下情况:我的站点地图网址:https://www.mywebsite.com/sitemap.xml

我的站点地图链接如下所示:https://www.mywebsite.com/product_id/product

例如:https://www.mywebsite.com/534372/acer_laptop

我想问你是否有一个解决方案让我从每个链接中提取以下元素:title, product_image_url,price

我尝试了 Web Scraper 和 Legacy PhantomJS Crawler,但我认为我错过了一些东西,因为我无法获得我需要的元素。

0 投票
1 回答
907 浏览

apify - Apify中如何提高爬取速度?

我正在使用 Apify 并且爬行速度非常可怕。我需要浏览大约 12,500 页的房产列表。

起始页: https ://www.sreality.cz/hledani/prodej/byty?strana=1

链接选择器:a[href]

伪 URL: https://www.sreality.cz/detail/prodej/byt/[.+]/[.+]/[.+] https://www.sreality.cz/hledani/prodej/byty?斯特拉纳=[.+]

第一个是公寓的细节 第二个是下一页

我的页面功能:

异步函数 pageFunction(context) {

}

现在我只是在刮名字。我想先解决速度。

感谢您的任何答案:)

0 投票
1 回答
838 浏览

apify - 通过 Apify 读取简单的 CSV

我想在 Apify 中创建一个日常任务,读取这个非常简单的 csv:https ://api.alternative.me/fng/?format=csv并将数据解析到 Google 表格。我是 Apify 初学者,想知道如何用几行代码来完成。

柏林最佳