我有一个单页应用程序,我在其中使用无头浏览器向网络爬虫提供页面,为它们提供与实际用户将看到的页面非常接近的版本。
目前,我将爬虫用户代理列入白名单:google、facebook、bing、yahoo 和linkedin。
我现在希望将其扩展为针对每个用户代理的更强大的东西,而不仅仅是这些。这样做的原因是,如果我不接受特定的爬虫,他们将看到的只是小胡子 HTML 模板。这对我没有好处。
使用巨大的用户代理正则表达式是最好的方法吗?这是每个请求都要做的事情,所以我也需要一些快速的东西......