使用 PHP 或 Java 抓取网站很容易实现,但是我的问题是,如果我想让客户端计算机抓取,是否可以使用 javascript 而不是在服务器端执行此操作。
背景是网站可能会阻止我的服务器或服务器场,但是如果我让用户计算机抓取然后将该信息发布到我的服务器,我们将避免服务器的阻塞。
- 我们可以使用 javascript 抓取网站并使用 CSS 选择器或正则表达式来解析 HTML 以提取某些信息吗?
- 我们是否能够保护我们在 javacript 中使用的代码,或者我们的抓取算法是否必须是人类可读的?
- 如果我们然后通过 AJAX 将结果发布到我们的服务器,我们如何确保它是我们的脚本而不是恶意用户操纵的数据?
是否有一个很好的框架来完成这个,或者我应该继续服务器端抓取?