1

我正在使用 SimpleHTMLDOM 解析器从网页中提取 HTML 数据。但是我遇到了诸如www.coursera.com之类的网站,其中网页是在运行时生成的。

我需要知道有没有人尝试解析这样的页面?

我是这个领域的新手,所以关于这个主题的一些理论将有助于我理解解析网页。

4

2 回答 2

3

在这种情况下,它可能更容易(尽管并非总是如此)。用于生成内容的数据可能是 ajax 请求的一部分,您可以直接向这些 ajax 端点发送请求并解析来自端点的响应。

通常这将是 JSON,与 HTML 相比,它很容易解析。

于 2013-03-03T22:04:05.563 回答
1

John Resig 编写了一个 HTML 解析器。

演示 http ://ejohn.org/blog/pure-javascript-html-parser/

这可以为你锻炼。

于 2013-03-03T22:12:23.673 回答