问题标签 [apify]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1821 浏览

javascript - 如何通过无限滚动正确抓取网页?

我将如何从无限滚动的站点中抓取数据?

我要做的是从 Google Play 商店(https://play.google.com/store/apps/category/GAME/collection/top sell_free?hl=en)获取所有数据。

我正在使用 Apify( https://www.apify.com/ ) 来爬取 Google Play 商店;我想获取“Top Free in games”的所有链接,然后获取所有热门游戏的标题和详细信息。

不幸的是,当用户滚动到页面底部时,页面会加载新数据,我不知道如何获取新数据。

这是我的页面功能:

}

如何加载其他游戏并获取它们的链接,以便我可以在游戏页面上获取它们的详细信息?

一个示例或示例代码将不胜感激。

0 投票
1 回答
1644 浏览

javascript - 如何在 JS/JQuery 中迭代 Xpath

我试图使用Apifiycrawler为这个页面创建一个。

Apify 使用jQuery和 css 选择器来定位数据。但是,我似乎无法很好地理解 css 选择器,所以,我使用了XPath. 我使用的代码只提取了第一行数据,而不是整个数据列表。

我使用的代码如下:

我如何迭代它以获取整个数据列表?

0 投票
1 回答
932 浏览

angular - http响应未保存

我有离子/角度项目。

我通过以下方式调用外部 api:

}

我的问题是,即使我从服务器得到有效的响应:

它不会保存到 this.dataKeys。我打电话给这个:

并且来自 api 的所有日志都未定义。每一个帮助将不胜感激。

0 投票
2 回答
13174 浏览

php - 使用 Body 中的数组向站点发送 HTTP Post 请求

我正在尝试发出 POST 请求并在 API 调用的正文中发送一些值。在API 的文档中,它说我需要发出一个 POST 请求,将startUrls其用作带有keyand的数组value

JSON 似乎是它应该的样子,但脚本没有将正文正确发送到网站。

0 投票
1 回答
1269 浏览

api - 需要APIFY爬取数据

我只想获得通过爬行获得的生产细节。我想去下一页然后回来。我该怎么做,因为可用的参考资料不多?

0 投票
0 回答
1078 浏览

javascript - 调用用户提供的“pageFunction”时出错:错误:TypeError:JSON.stringify 无法序列化循环结构

我正在使用Apify,一种无头浏览器服务来编写网页抓取爬虫,它是 Javascript。

我正在尝试收集我在博客上发表的数百篇文章的文章内容。

爬虫通过在 Apify 的 Web 界面中指定起始页和列表页来工作,它们是包含文章链接的分页索引,以及它应该从那里爬取的目标文章的 URL 模式......

在此处输入图像描述

在我选择的名字中...

这是爬虫代码...

我认为这种结构可能有些正确。

从 START 和 LIST 中,这可以正确识别要抓取的正确 URL,这不是问题所在。Apify 行为是pageFunction为要提取数据的每个页面触发。我的目标是仅提取每个页面的H1标签进行测试。

问题是对于每一个(即当pageFunction执行时),爬虫不是返回H1标签,而是返回......

我已经阅读了JSON.stringify我不完全理解这个问题。

0 投票
1 回答
1470 浏览

javascript - 如何使用 jquery 从 Javascript 中提取特定数据字段?

我不确定这个问题是否已经被问过,而且我是 jquery 和 javascript 的新手。但是,我找不到与我的问题相关的任何答案。我正在尝试创建一个apify爬虫。我需要从以下 javascript 中提取特定数据

我需要获取字段:totaldomestic使用exhibitorsjquery。我试过这个查询(JSON.parse($('.js-react-on-rails-component').text())).exhibitors.total.text().trim()但它没有返回任何东西。因此,我尝试创建一个变量并在结果上调用它,如下所示:

但是,这段代码也没有返回任何结果。

0 投票
1 回答
1165 浏览

javascript - 如何遍历 Apify 上的数组?

我正在抓取 Sainsbury's,这是我的起始 URL:https://www.sainsburys.co.uk/shop/gb/groceries/meat-fish/all-chicken-44?fromMegaNav=1#langId=44&storeId=10151&catalogId=10123&categoryId=310864&parent_category_rn=13343&top_category=13343&pageSize=36&orderBy=FAVOURITES_ONLY%7CSEQUENCING%7CTOP_SELLERS&searchTerm=&beginIndex=0&hideFilters=true

我希望在页面上显示类别、子类别和子类别以及每个项目的价格、标题和图像 src。

我当前的代码返回(以 JSON 格式)产品标题、价格和图像。它还返回我正在爬取的页面的类别、子类别和子子类别。我希望返回每个产品标题、价格和图片旁边的类别,但不确定如何设置循环来执行此操作。

这是我的代码返回的

JSON 结果

我怎样才能做到这一点?

0 投票
2 回答
5716 浏览

button - 如何使用(Apify 的)Puppeteer 单击没有 ID 的按钮?

我正在使用Apify 的 puppeteer登录这个网站。我确实研究了类似的问题,但无济于事。

我无法找到链接登录页面上看到的主登录按钮的可点击 ID/元素。目前,我的代码如下所示:

使用 identryform我收到以下错误:Node is either not visible or not an HTMLElement

使用 idloginP我收到以下错误:No node found for selector

我使用 XPath 来定位这些,它没有提供其他使用的 id。任何有关如何为此登录按钮或任何其他方法查找可点击元素的帮助将不胜感激。

0 投票
1 回答
1331 浏览

javascript - 我需要一些帮助来修改 Apify 爬虫

我有一个 Apify 爬虫,它可以工作并获取我想要的所有数据,但爬虫不会等待页面完全加载,因此我得到的结果集不完整。这是该代码:

这是页面的副本和我要抓取的第一个 li:

在他们的文档中:https : //www.apify.com/docs/crawler#waiting-for-dynamic-content 您可以使用 pageFunction 使用以下代码等待动态内容加载:

我遇到的问题是我似乎无法将两者结合起来检索我需要的数据。

我没有高兴地尝试过这个:

任何帮助将不胜感激。

谢谢