问题标签 [apify]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apify - 使用 APIFY 抓取数据并显示存储的数据
我已经抓取了一个网站,它显示操作成功,但没有显示任何内容。它告诉我,数据集中的结果是空的。
javascript - 使用 Apify 进行网页抓取
我正在尝试从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL
具体来说,我正在尝试使用 Apify 来抓取该页面并从 HTML 中存在的锚标记返回 URL 列表。在我的控制台中,我希望href
在名为myValue
. 我还希望在名为 的属性中看到页面标题title
。相反,我只看到以下URL
属性及其值。
我的 Apify 演员使用 Puppeteer 平台。所以我正在使用pageFunction
类似于 Puppeteer 使用它的方式。
下面是我运行之前 Apify UI 的屏幕截图。
页面功能我究竟做错了什么?
javascript - 使用 Apify 和 Puppeteer 抓取 URL
我正在尝试使用名为“web-scraper” (https://apify.com/apify/web-scraper)的 Apify 演员从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取 URL
具体来说,我正在尝试使用以下 ApifypageFunction
来抓取该目标页面并从 HTML 中存在的锚标记返回 URL 列表。
在我的控制台中,我希望href
在名为anchorTag
. 我还希望在名为pageTitle
的属性和url
属性中看到页面标题。如下:
但是,参与者返回的不是 URL 列表,而是以下数据集:
我实际看到的:我究竟做错了什么?
javascript - 如何使用 Apify 和 Puppeteer 构建成功的网络抓取结果?
使用 Apify 和 Puppeteer,我想从以下 URL 抓取数据表:
https://en.wikipedia.org/wiki/List_of_hedge_funds
我希望结果是一个对象数组。数组的每个元素应该代表<tr>
原始数据源表的每一行,并且是一个具有以下属性的 JS 对象。
在哪里:
firmName
是每行.innerText()
的第一个元素。<td>
firmUrl
是每行href
第一个元素的属性。<td>
hq
是每行. innerText()
的第二个元素。<td>
hqUrl
是每一行的第二个元素的href
属性。<td>
aum
是每一行. innerText()
的第三个<td>
元素。
具体来说,例如,我希望看到以下对象返回给我。
我想看到的,替代A:或者,或者,对象可能如下(我不知道哪个是可能的,这是我困惑的一部分)
我想看到的,备选方案 B:但相反,我实际上看到了以下结果。
我实际看到的:我使用以下代码作为我的pageFunction
.
我需要如何更改我的代码?
puppeteer - apify中page.on函数的响应是什么?
response
函数中有什么page.on
?
在第 17 行的“ https://github.com/vdrmota/actor-twitter-scraper/blob/master/src/scraper.js ”示例中,您检查response.url
包含"/timeline/profile/"
.
page.url()
是https://twitter.com/${handle}/with_replies
。_ 那么为什么要在第 17 行检查 URL 包含的内容"/timeline/profile/"
呢?
apify - 从 sitemap.xml 抓取每个链接
我是 Apify 的新手。
我想抓取每个链接sitemap.xml
更具体地说:我有以下情况:我的站点地图网址:https://www.mywebsite.com/sitemap.xml
我的站点地图链接如下所示:https://www.mywebsite.com/product_id/product
例如:https://www.mywebsite.com/534372/acer_laptop
我想问你是否有一个解决方案让我从每个链接中提取以下元素:title
, product_image_url
,price
我尝试了 Web Scraper 和 Legacy PhantomJS Crawler,但我认为我错过了一些东西,因为我无法获得我需要的元素。
apify - Apify中如何提高爬取速度?
我正在使用 Apify 并且爬行速度非常可怕。我需要浏览大约 12,500 页的房产列表。
起始页: https ://www.sreality.cz/hledani/prodej/byty?strana=1
链接选择器:a[href]
伪 URL: https://www.sreality.cz/detail/prodej/byt/[.+]/[.+]/[.+] https://www.sreality.cz/hledani/prodej/byty?斯特拉纳=[.+]
第一个是公寓的细节 第二个是下一页
我的页面功能:
异步函数 pageFunction(context) {
}
现在我只是在刮名字。我想先解决速度。
感谢您的任何答案:)
apify - 通过 Apify 读取简单的 CSV
我想在 Apify 中创建一个日常任务,读取这个非常简单的 csv:https ://api.alternative.me/fng/?format=csv并将数据解析到 Google 表格。我是 Apify 初学者,想知道如何用几行代码来完成。
柏林最佳