web-scraping - 在没有 api 的情况下有效地抓取网站？

Question

考虑到大多数语言都具有内置或由其他语言制作的网页抓取功能，这更像是一个一般的网页抓取问题。

我有一个网站，我想从大约 6 个不同的页面中提取信息。这通常不会那么糟糕。不幸的是，这些页面上的信息大约每十秒更改一次，这可能意味着每小时有超过 2000 个查询（这根本不行）。我想到的网站也没有 api。是否有任何可能的有效方法来获取我需要的信息量而不会用请求淹没它们，还是我不走运？

score 0 · Accepted Answer

充其量，当您发出请求时，该站点可能会HTTP 304 Not Modified在其标头中向您返回一个 - 表明您不需要下载该页面，因为没有任何变化。如果站点设置为这样做，这可能有助于减少带宽，但仍需要相同数量的请求。

如果有一致的更新时间表，那么至少您知道何时提出请求 - 但您仍然需要询问（即：提出请求）以了解哪些信息已更改。

1 回答 1