5

我是一名大学生,是时候再次购买教科书了。本季度有超过 20 本书我需要上课。通常这没什么大不了的,因为我只需将 ISBN 复制并粘贴到亚马逊。但是,ISBN 会在我学校的图书网站上转换为图像。我想要做的就是将 ISBN 放入一个字符串中,这样我就不必手动输入每一个。我已经使用 GOCR 将图像转换为文本,但我想将它与 Ruby 脚本一起使用,这样我就可以自动化这个过程并为我的同学做同样的事情。

我可以导航到该站点。如何将图像保存到计算机上的文件(运行 UBUNTU),使用 GOCR 转换图像,最后将其保存到文件中,以便我可以使用 Ruby 脚本再次访问它们?

4

2 回答 2

3

GOCR 一开始似乎是一个不错的选择,但从我自己的“研究”中可以看出,质量对于日常使用来说还不够。也许这可能会导致问题,具体取决于图像输入。如果它不适合您,请尝试 Google Docs 的“新”功能,它允许您为 OCR 上传图像。然后,您可以使用一些 google api 检索结果(那里有很多,但我使用的是gdata-ruby-util,它需要一些黑客攻击。

您也可以将 tesseract-ocr 用于 OCR 部分,它也是开源的并且正在积极开发中。

对于检索部分,我还是会坚持 hpricot,超级强大和灵活。

于 2009-12-09T22:35:05.717 回答
2

听起来像是一个很酷的项目,如果 ISBN 图像存储在单独的文件中,应该不会太难。

这一切都可以在后台运行:

  • 下载网页(net/http)
  • 为每本书保存元数据 + 图像文件(回形针)
  • 在所有图像上运行 GOCR

您所需要的只是一个 url 列表或一个爬虫(机械化),然后您可能需要花几分钟时间为大学 html 页面编写一个解析器(参见 joe 的帖子)。

于 2009-12-09T22:12:08.900 回答