http - 如何从网页中获取所有结果，就像浏览器在完成向下滚动时显示的那样

Question

我正在尝试从网页获取所有视频结果：

$ curl -qs https://ok.ru/video/c335170 | pup '.video-card_lk attr{href}' | wc -l
24

另一种方法返回相同的结果：

$ wget --config="/dev/null" -qO- https://ok.ru/video/c335170 | grep -oP '/video/\d+' | sort -u | wc -l
24

编辑1：使用firefox将网页滚动到末尾并将其保存为c335170.html，我得到相同的结果：

$ cat c335170.html | grep -oP '/video/\d+' | sort -u | wc -l
24

但是，在网络浏览器上，滚动到最后，它会显示 81 个结果。

同样的铅。使用 YouTube 和隐藏来自 http 控制台客户端的结果的“加载更多”按钮：

$ curl -qs https://www.youtube.com/user/impacttvouaga/videos | grep -oP "/watch\?v=[\w-]+" | uniq | wc -l
21

编辑2：我刚刚用firefox将此网页保存为“网页，仅限HTML” RMC_IMPACTV__YouTube.html，然后：

$ cat RMC_IMPACTV__YouTube.html | grep -oP "/watch\?v=[\w-]+" | uniq | wc -l
21

我怎样才能让远程 HTTP 服务器给我所有的结果？

score 0 · Accepted Answer

0

要下载扩展的 html，我安装了Save Page WE并向下滚动，我安装了Scroll it！

于 2020-04-16T23:47:05.013 回答

1 回答 1