java - 防止在spring mvc中抓取网页内容

Question

我正在一个包含 Spring MVC 中房地产列表的网站上工作。我想防止脚本通过抓取网站来窃取内容。有没有人有可以轻松插入spring mvc环境的技术经验？

用户代理太简单而无法规避。

我的一个想法是跟踪服务器端的两个计数器。ipaddress --> (counter xhr request, counter page request)

如果过滤器注意到两个计数器完全不同步，则该 ip 被阻止。

这可以工作还是有更简单的技术？

干杯

编辑

我知道，如果抓取工具是持久的，他们会找到获取内容的方法。但是，我想让它尽可能难。

score 0 · Accepted Answer

你根本无法阻止它，但你可以尽可能地让它变得更难。

使其更难的一种方法是根据时间非常频繁地更改您的内容 URL，并在 url 中附加一些加密标志。

score 0 · Accepted Answer

通过 ajax 加载内容。使 ajax 请求动态化，这样他们就不能只是去抓取 ajax 请求。

只有复杂的爬虫支持 java 脚本的执行。

大多数抓取工具不会通过真正的浏览器运行页面，因此您可以尝试利用它来发挥自己的优势。

score 0 · Accepted Answer

在我的头顶上：

3 回答 3