1930 年的美国人口普查可作为一系列大型 pdf 在线获取。可悲的是,据我所知,没有免费的服务也在上面运行 OCR。另一方面,网上有很多“热心的业余爱好者”成功完成 OCR 的例子。所以,让我们从头开始。
例如,可以在http://i47.tinypic.com/2i7tt8k.png看到一个页面,这是另一个页面:
什么是从图像中提取不同单词的好方法,以便人们可以开始尝试训练系统来识别它们?最终,我认为这是一个棘手的机器学习问题。
您可以从http://archive.org/details/newyorkcensus00reel1475和相关链接下载整个图像文件。