问题标签 [apify]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何通过无限滚动正确抓取网页?
我将如何从无限滚动的站点中抓取数据?
我要做的是从 Google Play 商店(https://play.google.com/store/apps/category/GAME/collection/top sell_free?hl=en)获取所有数据。
我正在使用 Apify( https://www.apify.com/ ) 来爬取 Google Play 商店;我想获取“Top Free in games”的所有链接,然后获取所有热门游戏的标题和详细信息。
不幸的是,当用户滚动到页面底部时,页面会加载新数据,我不知道如何获取新数据。
这是我的页面功能:
}
如何加载其他游戏并获取它们的链接,以便我可以在游戏页面上获取它们的详细信息?
一个示例或示例代码将不胜感激。
angular - http响应未保存
我有离子/角度项目。
我通过以下方式调用外部 api:
}
我的问题是,即使我从服务器得到有效的响应:
它不会保存到 this.dataKeys。我打电话给这个:
并且来自 api 的所有日志都未定义。每一个帮助将不胜感激。
php - 使用 Body 中的数组向站点发送 HTTP Post 请求
我正在尝试发出 POST 请求并在 API 调用的正文中发送一些值。在API 的文档中,它说我需要发出一个 POST 请求,将startUrls
其用作带有key
and的数组value
。
JSON 似乎是它应该的样子,但脚本没有将正文正确发送到网站。
api - 需要APIFY爬取数据
我只想获得通过爬行获得的生产细节。我想去下一页然后回来。我该怎么做,因为可用的参考资料不多?
javascript - 调用用户提供的“pageFunction”时出错:错误:TypeError:JSON.stringify 无法序列化循环结构
我正在使用Apify,一种无头浏览器服务来编写网页抓取爬虫,它是 Javascript。
我正在尝试收集我在博客上发表的数百篇文章的文章内容。
爬虫通过在 Apify 的 Web 界面中指定起始页和列表页来工作,它们是包含文章链接的分页索引,以及它应该从那里爬取的目标文章的 URL 模式......
在我选择的名字中...
- 开始:https ://www.example.com/author/myname
- 列表:https://www.example.com/author/myname/page/[ \d+]
- 详情:https://www.example.com/[ \d+] /[\d+] /[a-z0-9]+(?:-[a-z0-9]+)*.html$
这是爬虫代码...
我认为这种结构可能有些正确。
从 START 和 LIST 中,这可以正确识别要抓取的正确 URL,这不是问题所在。Apify 行为是pageFunction为要提取数据的每个页面触发。我的目标是仅提取每个页面的H1
标签进行测试。
问题是对于每一个(即当pageFunction执行时),爬虫不是返回H1
标签,而是返回......
我已经阅读了JSON.stringify我不完全理解这个问题。
javascript - 如何使用 jquery 从 Javascript 中提取特定数据字段?
我不确定这个问题是否已经被问过,而且我是 jquery 和 javascript 的新手。但是,我找不到与我的问题相关的任何答案。我正在尝试创建一个apify爬虫。我需要从以下 javascript 中提取特定数据
我需要获取字段:total
并domestic
使用exhibitors
jquery。我试过这个查询(JSON.parse($('.js-react-on-rails-component').text())).exhibitors.total.text().trim()
但它没有返回任何东西。因此,我尝试创建一个变量并在结果上调用它,如下所示:
但是,这段代码也没有返回任何结果。
javascript - 如何遍历 Apify 上的数组?
我正在抓取 Sainsbury's,这是我的起始 URL:https://www.sainsburys.co.uk/shop/gb/groceries/meat-fish/all-chicken-44?fromMegaNav=1#langId=44&storeId=10151&catalogId=10123&categoryId=310864&parent_category_rn=13343&top_category=13343&pageSize=36&orderBy=FAVOURITES_ONLY%7CSEQUENCING%7CTOP_SELLERS&searchTerm=&beginIndex=0&hideFilters=true
我希望在页面上显示类别、子类别和子类别以及每个项目的价格、标题和图像 src。
我当前的代码返回(以 JSON 格式)产品标题、价格和图像。它还返回我正在爬取的页面的类别、子类别和子子类别。我希望返回每个产品标题、价格和图片旁边的类别,但不确定如何设置循环来执行此操作。
这是我的代码返回的
我怎样才能做到这一点?
button - 如何使用(Apify 的)Puppeteer 单击没有 ID 的按钮?
我正在使用Apify 的 puppeteer登录这个网站。我确实研究了类似的问题,但无济于事。
我无法找到链接登录页面上看到的主登录按钮的可点击 ID/元素。目前,我的代码如下所示:
使用 identryform
我收到以下错误:Node is either not visible or not an HTMLElement
使用 idloginP
我收到以下错误:No node found for selector
我使用 XPath 来定位这些,它没有提供其他使用的 id。任何有关如何为此登录按钮或任何其他方法查找可点击元素的帮助将不胜感激。
javascript - 我需要一些帮助来修改 Apify 爬虫
我有一个 Apify 爬虫,它可以工作并获取我想要的所有数据,但爬虫不会等待页面完全加载,因此我得到的结果集不完整。这是该代码:
这是页面的副本和我要抓取的第一个 li:
在他们的文档中:https : //www.apify.com/docs/crawler#waiting-for-dynamic-content 您可以使用 pageFunction 使用以下代码等待动态内容加载:
我遇到的问题是我似乎无法将两者结合起来检索我需要的数据。
我没有高兴地尝试过这个:
任何帮助将不胜感激。
谢谢