我想要的数据在浏览器中是可见的,但我在 html 源代码中找不到。我怀疑数据是由脚本生成的。我想对这类数据进行分级。可以使用 Jsoup 吗?我知道 Jsoup 只是不执行 Javascript。
以这个页面为例,我想抓取 Academics -> COLLEGES & SCHOOLS 下的所有学院和学校。
我想要的数据在浏览器中是可见的,但我在 html 源代码中找不到。我怀疑数据是由脚本生成的。我想对这类数据进行分级。可以使用 Jsoup 吗?我知道 Jsoup 只是不执行 Javascript。
以这个页面为例,我想抓取 Academics -> COLLEGES & SCHOOLS 下的所有学院和学校。
如果 dom 内容是通过脚本或插件生成的,那么您真的应该考虑使用像phantomjs这样的可编写脚本的浏览器。然后你可以写一些 javascript 来提取数据。
我没有检查您的链接,我假设您正在寻找不特定于任何页面的一般答案。