2

我面临机器人从我的网页上复制所有内容的问题(我经常尝试更新)。

我试图禁止它们,或者混淆代码以使其更难复制。然而,他们找到了一些方法来克服这些限制。

我想尝试限制每分钟的点击次数(或 X 次,不一定是分钟),但使用验证码来克服这些限制。例如,如果您在过去 5 分钟内请求了超过 10 个页面,则需要使用验证码证明您是人类。因此,如果用户是合法用户,您将能够继续上网。

我只想在内容页面中执行此操作(以更有效地执行此操作)。有想过MemCached,但是由于我不欠服务器,所以不能用。如果我使用的是 Servlets,我会使用 HashMap 或类似的东西,但由于我使用的是 PHP,我仍在尝试寻找解决方案。

我不认为 MySql(或数据库)是一种解决方案,因为我每秒可以点击很多次。而且我应该在几分钟的旧请求后删除,这会产生很多不必要的和低效的流量。

有任何想法吗?

总结: 如果我在网页的某个部分每分钟获得太多点击,我想在 PHP 中有效地使用 Captcha 来限制它。例如,如果您在过去 5 分钟内请求了超过 10 个页面,则需要使用验证码证明您是人类。

4

1 回答 1

2

你的问题有点违背互联网的精神。

  1. 每个人都向每个人复制/借用
  2. 每个搜索引擎都有网络上其他所有内容的副本

我猜你遇到的问题是这些机器人正在窃取你的流量?如果是这样,我建议您尝试实现一个 API,允许他们合法地使用您的内容。

通过这种方式,您可以控制访问权限,并且至关重要的是,您可以请求链接回您的网站,以换取使用您的内容。这样,您的网站应该是内容的第一名。您甚至不需要 API 来实施此策略。

如果您坚持限制用户访问,您有以下选择:

  1. 使用 javascript 解决方案并使用 Ajax 将内容加载到页面中。即使这也不会愚弄最好的机器人。
  2. 将所有内容放在用户名/密码系统后面。
  3. 阻止有问题的 IP - 这是维护的噩梦,你永远无法保证,但它可能会有所帮助。

问题是 - 如果您希望 Google 找到您的内容并将其限制在其他机器人中,那么您的要求是不可能的。

你最好的选择是创建一个 API 并控制人们复制你的东西,而不是试图阻止它。

于 2012-09-01T14:15:33.007 回答