我正在开发一个产品,我们需要一个功能来抓取用户给定的 URL 并发布他单独的移动站点。在爬取过程中我们要爬取网站内容、CSS、图片和脚本。该产品用于执行更多活动,例如安排一些营销活动等等。我想问的——
执行此任务的最佳实践和开源框架是什么?
我们应该在应用程序本身中执行此操作,还是应该有另一个服务器来执行此活动(如果此活动需要负载)?请记住,我们每个月都会有 1 个“缺乏”的用户从网站上发布他的移动网站,以及大约 1-2k 的并发用户。
该应用程序是在 Java 和 Java EE 平台中构建的,使用 Spring 和 Hibernate 作为服务器端技术。