问题标签 [apify]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

165 问题

0 投票

1 回答

717 浏览

apify - 使用 APIFY 抓取数据并显示存储的数据

我已经抓取了一个网站，它显示操作成功，但没有显示任何内容。它告诉我，数据集中的结果是空的。

apify

2020-02-10T10:31:28.963

0 投票

1 回答

724 浏览

apify - 语义版本控制

我想使用一个行为的语义版本控制，但我不熟悉它，想学习专业的方法。所以我有以下问题：

如果 Fork-Link 已停用，我如何将版本发送到例如 1.0（请参阅屏幕截图）。
推荐的版本控制工作流程如何？
Apify-Versioning 和 package.json 中的版本号对应的是谁？
“删除”链接实际上删除了什么，整个行为，版本或版本号？

问候 Wulfgäääng

apify

2020-02-11T14:32:49.410

0 投票

1 回答

1072 浏览

web-scraping - 如何将任何 URL 传递给 APIFY 任务？

APIFY 中有一个用于配置“起始 URL”的框，但是如果我不知道起始 URL 会发生什么，这取决于我的用户输入？我希望能够将变量 URL 传递给“起始 URL”

APIFY 中启动 URL 的配置：

我想通过 APIFY 任务自动传递任何 URL，然后将其废弃。

我尝试通过 Zapier 自动完成，在配置中可以选择 URL 输入并将其传递给 APIFY，但最后它停止了任务，因为无法读取传递的格式。Zapier的数据输出日志：

我认为 APIFY 可能允许配置动态输入 URL，但就我的初学者而言，可能有一些东西超出了我的知识范围。

我希望能够传递要被 APIFY 抓取的变量 URL。

web-scraping zapier apify

2020-02-14T07:32:33.240

0 投票

2 回答

1209 浏览

javascript - 使用 Apify 进行网页抓取

我正在尝试从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL

具体来说，我正在尝试使用 Apify 来抓取该页面并从 HTML 中存在的锚标记返回 URL 列表。在我的控制台中，我希望href在名为myValue. 我还希望在名为的属性中看到页面标题title。相反，我只看到以下URL属性及其值。

我的 Apify 演员使用 Puppeteer 平台。所以我正在使用pageFunction 类似于 Puppeteer 使用它的方式。

下面是我运行之前 Apify UI 的屏幕截图。

页面功能

我究竟做错了什么？

javascript web-scraping screen-scraping puppeteer apify

2020-02-25T04:29:50.547

0 投票

1 回答

1046 浏览

javascript - 使用 Apify 和 Puppeteer 抓取 URL

我正在尝试使用名为“web-scraper” （https://apify.com/apify/web-scraper）的 Apify 演员从 https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL

具体来说，我正在尝试使用以下 ApifypageFunction来抓取该目标页面并从 HTML 中存在的锚标记返回 URL 列表。

页面函数

在我的控制台中，我希望href在名为anchorTag. 我还希望在名为pageTitle的属性和url属性中看到页面标题。如下：

我期望看到的：

但是，参与者返回的不是 URL 列表，而是以下数据集：

我实际看到的：

我究竟做错了什么？

javascript web-scraping screen-scraping puppeteer apify

2020-02-28T02:59:27.177

0 投票

1 回答

955 浏览

javascript - 如何使用 Apify 和 Puppeteer 构建成功的网络抓取结果？

使用 Apify 和 Puppeteer，我想从以下 URL 抓取数据表：

https://en.wikipedia.org/wiki/List_of_hedge_funds

我希望结果是一个对象数组。数组的每个元素应该代表<tr>原始数据源表的每一行，并且是一个具有以下属性的 JS 对象。

在哪里：

firmName是每行.innerText()的第一个元素。<td>
firmUrl是每行href第一个元素的属性。<td>
hq是每行. innerText()的第二个元素。<td>
hqUrl是每一行的第二个元素的href属性。<td>
aum是每一行. innerText()的第三个<td>元素。

具体来说，例如，我希望看到以下对象返回给我。

我想看到的，替代A：

或者，或者，对象可能如下（我不知道哪个是可能的，这是我困惑的一部分）

我想看到的，备选方案 B：

但相反，我实际上看到了以下结果。

我实际看到的：

我使用以下代码作为我的pageFunction.

页面函数

我需要如何更改我的代码？

javascript html web-scraping puppeteer apify

2020-03-01T03:33:27.980

0 投票

1 回答

784 浏览

puppeteer - apify中page.on函数的响应是什么？

response函数中有什么page.on？

在第 17 行的“ https://github.com/vdrmota/actor-twitter-scraper/blob/master/src/scraper.js ”示例中，您检查response.url包含"/timeline/profile/".

page.url()是https://twitter.com/${handle}/with_replies。_ 那么为什么要在第 17 行检查 URL 包含的内容"/timeline/profile/"呢？

puppeteer apify

2020-03-03T14:07:09.333

0 投票

2 回答

965 浏览

apify - 从 sitemap.xml 抓取每个链接

我是 Apify 的新手。

我想抓取每个链接sitemap.xml

更具体地说：我有以下情况：我的站点地图网址：https://www.mywebsite.com/sitemap.xml

我的站点地图链接如下所示：https://www.mywebsite.com/product_id/product

例如：https://www.mywebsite.com/534372/acer_laptop

我想问你是否有一个解决方案让我从每个链接中提取以下元素：title, product_image_url,price

我尝试了 Web Scraper 和 Legacy PhantomJS Crawler，但我认为我错过了一些东西，因为我无法获得我需要的元素。

apify

2020-03-05T09:53:20.160

0 投票

1 回答

907 浏览

apify - Apify中如何提高爬取速度？

我正在使用 Apify 并且爬行速度非常可怕。我需要浏览大约 12,500 页的房产列表。

起始页： https ://www.sreality.cz/hledani/prodej/byty?strana=1

链接选择器：a[href]

伪 URL： https://www.sreality.cz/detail/prodej/byt/[.+]/[.+]/[.+] https://www.sreality.cz/hledani/prodej/byty?斯特拉纳=[.+]

第一个是公寓的细节第二个是下一页

我的页面功能：

异步函数 pageFunction(context) {

}

现在我只是在刮名字。我想先解决速度。

感谢您的任何答案:)

apify

2020-03-05T18:38:27.733

0 投票

1 回答

838 浏览

apify - 通过 Apify 读取简单的 CSV

我想在 Apify 中创建一个日常任务，读取这个非常简单的 csv：https ://api.alternative.me/fng/?format=csv并将数据解析到 Google 表格。我是 Apify 初学者，想知道如何用几行代码来完成。

柏林最佳

apify

2020-03-08T17:22:15.417

1 2 3 4 5 6 7 8 9 10