我对 SO 上使用的 CAPTCHA 系统很着迷……我想更多地了解使 reCAPTCHA 起作用的“许多因素”。可以理解的是,考虑到滥用的可能性,开发人员对他们系统的确切内部运作保持沉默......但是这种行为有据可查,所以也许我的好奇心仍然可以满足:
如果我要设计一个 reCAPTCHA 的克隆,我该怎么做呢?
reCAPTCHA 允许:
- 打字错误
- 在人们做它们的地方。这表明我需要拥有有关错误的历史数据,然后基于此制定算法。
打字错误的检测需要大量使用数据库:一个用于数字化书籍中的单词,另一个用于已知单词。
技术已知细节
- 两个数据库:一个用于已知单词,另一个用于未知单词
- 用于组合词的后续数据库
未知的技术细节
- 如何快速分离单词,以便您看到来自不同数据库的单词组合?这是关于信号处理的。
- 如何将两个数据库中的数据提供给用户?
- 两个独立数据库中数据的初始形式是什么?PDF?
- 当来自两个数据库的数据合并时,随后的数据形式是什么?.pdf?
- 如何将数据从两个 pdf 文件合并为一个?
- 如何有效地旋转图像?
- 哪些算法用于将图像与书籍分开?
相关话题
- 信号处理
- 微积分:用于单词检测算法的系列,例如傅立叶和拉普拉斯。
- 概率论:有一个“计算机-人”系数,仅当它通过时才通过,例如,具有 95 置信区间
- 也许是数论:我们需要有效地存储和比较数据