web-crawler - 如何识别网络爬虫？

Question

我有一个单页应用程序，我在其中使用无头浏览器向网络爬虫提供页面，为它们提供与实际用户将看到的页面非常接近的版本。

目前，我将爬虫用户代理列入白名单：google、facebook、bing、yahoo 和linkedin。

我现在希望将其扩展为针对每个用户代理的更强大的东西，而不仅仅是这些。这样做的原因是，如果我不接受特定的爬虫，他们将看到的只是小胡子 HTML 模板。这对我没有好处。

使用巨大的用户代理正则表达式是最好的方法吗？这是每个请求都要做的事情，所以我也需要一些快速的东西......

score 0 · Accepted Answer

如果它太多，您可以实现一个布隆过滤器（一种执行“如果存在”测试的内存高效解决方案）。

1 回答 1