1

使用 Diffbot API 时,API 是在 HTML 加载后抓取通过 JS 添加的内容,还是 Diffbot 只看到立即可用的 HTML?

4

1 回答 1

1

是的,Diffbot 可以看到 JavaScript 生成的内容。

Diffbot 是一个视觉学习机器人,它不仅仅解析给定 URL 的网页源代码。它基于精简的无会话版本的 Chrome,旨在泄漏内存并故意成为一个糟糕的浏览器,所有这些目标都是尽可能快。Diffbot 在此浏览器中呈现请求的页面,然后直观地检查它以获取我们已知期望的组件。

请务必注意,Article API 不会单个调用中执行 JavaScript 代码 - 仅在批量 API 调用、Crawlbot 调用中以及作为分析 API 的一部分(目前处于测试阶段)。必须根据具体情况联系 Diffbot 团队,以启用每个域的整页渲染,并为 Article API 启用 JS。

要记住的另一个限制是 Crawlbot 不会收集 JS 生成的链接。因此,如果通过 JS 将链接添加到页面,Crawlbot 将不到它们。Crawlbot在被其他 API 调用时执行 JS。

关于自定义 API,开发界面中的预览窗口不会呈现 JavaScript内容,但当调用 API 到给定 URL 时,内容可用。Diffbot 团队正在努力解决这种差异。

在此处输入图像描述

来源:Diffbot 支持

于 2014-07-23T15:46:28.747 回答