2

我对 SO 上使用的 CAPTCHA 系统很着迷……我想更多地了解使 reCAPTCHA 起作用的“许多因素”。可以理解的是,考虑到滥用的可能性,开发人员对他们系统的确切内部运作保持沉默......但是这种行为有据可查,所以也许我的好奇心仍然可以满足:

如果我要设计一个 reCAPTCHA 的克隆,我该怎么做呢?


reCAPTCHA 允许:

  1. 打字错误
  2. 在人们做它们的地方。这表明我需要拥有有关错误的历史数据,然后基于此制定算法。

打字错误的检测需要大量使用数据库:一个用于数字化书籍中的单词,另一个用于已知单词。

技术已知细节

  1. 两个数据库:一个用于已知单词,另一个用于未知单词
  2. 用于组合词的后续数据库

未知的技术细节

  1. 如何快速分离单词,以便您看到来自不同数据库的单词组合?这是关于信号处理的。
  2. 如何将两个数据库中的数据提供给用户?
  3. 两个独立数据库中数据的初始形式是什么?PDF?
  4. 当来自两个数据库的数据合并时,随后的数据形式是什么?.pdf?
  5. 如何将数据从两个 pdf 文件合并为一个?
  6. 如何有效地旋转图像?
  7. 哪些算法用于将图像与书籍分开?

相关话题

  1. 信号处理
  2. 微积分:用于单词检测算法的系列,例如傅立叶和拉普拉斯。
  3. 概率论:有一个“计算机-人”系数,仅当它通过时才通过,例如,具有 95 置信区间
  4. 也许是数论:我们需要有效地存储和比较数据
4

1 回答 1

3

重新验证码

于 2009-06-02T21:01:47.790 回答