1

我知道阻止人们窃取我们的数据是不可能的,但我有一个大型数据库,我想至少防止自动脚本窃取我的数据库。

到目前为止我的想法:

  • 使用 JavaScript 或编码 HTML = 重,很容易被解码
  • 重新验证搜索 = 没办法,用户只会离开我的网站
  • 在站点 HTML 中插入随机数据和标签以避免正则表达式 rip = 好?

任何想法表示赞赏。

4

3 回答 3

2

人们为什么要窃取您的数据库?他们这样做有什么关系?要求他们不要不够吗?

明确您的政策,并确保您公司的法律部门已经检查了措辞。明确表示不允许进行未经授权的联合,并且您将采取法律措施来阻止它,从而阻止未经授权的联合。

或者更好的是,鼓励授权联合。只有在没有明智的方式让他们以授权的方式这样做时,人们才会进行未经授权的联合。

技术措施可能会产生一些影响,但只会阻止那些不特别胜任或没有决心的人。

于 2010-11-14T17:46:45.233 回答
1

您提出的这些解决方案都不起作用。一个好的剧本作者可以很容易地绕过这些。但是,在应用服务器端有一个技术解决方案:实施速率限制。仅允许每隔 10 秒从给定 IP 地址进行一次搜索。这将使您网站的自动数据挖掘变得非常缓慢。

于 2010-11-14T17:48:54.457 回答
0

我认为 Alexa 会在标记中插入随机标签,当我尝试挖掘它时,它给了我很长时间......他们在 Alexa 排名中添加了一些额外的标签,<span class="a5r">35</span><span class="et4">52</span><span class="arer">16</span>除非你也下载了样式表并查看渲染规则,你无法弄清楚应该是什么数字。

但是......如果我足够耐心,我可以“渲染”这些数字然后挖掘它,但这对我来说不值得。将页面请求限制在人为可能的数量可能会很好(50/分钟或其他东西)。

于 2010-11-14T17:47:52.070 回答