3

注意到Google Drive 可以识别 PDF(以及其他文件,如图像和文本文档)中的文本。出于好奇,我想知道他们做了什么来显示可选择和可搜索的 img 标签。例如,当我在 Chrome 开发人员工具中检查 Google Drive 文档时,每个页面都是一个图像,但它不像图像,因为文本是可选择的。另一方面,当我放大时,似乎加载了另一个分辨率更高的图像。我认为这与 scribd 使用的技巧相同。

我还读到 Google 一直在改进tesseract-ocr,并且 Google Books 团队帮助 Google Drive 中的 OCR 实施,但我不确定以他们的方式生成 img 标签的过程是什么。

幕后发生了什么?

谢谢!

4

2 回答 2

3

我不能确定到底发生了什么,但我会把我的发现告诉你。如果您查看驱动器中文件的 pdf 视图的 HTML 代码,您会发现类似这样的内容。

<div id="page-pane" class="">
   <div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
      <div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane">
            <div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
            <div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
            <div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
         </div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane"></div>
         <img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=800" />
         <p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
      </div>
   </div>

(pdf的第0页)中有四个highlight-panediv和一个imgdiv 。div 显示您谈论的图像2h.page.0img这只是一个简单的图像,这里没有 OCR。您提到的选定文本来自第二个highlight-pane,当您在图像上拖动一个框时,它会动态添加 div。第二个中的三个 divhighlight-pane代表选定的文本(对应于三行选定的文本)。

当您访问页面时会发生以下情况。

  • 从存储在驱动器中的 pdf 查看页面图像。
  • 您在页面上选择了一些东西。您创建一个拖动框。
  • 选择触发在 pdf 上运行 OCR 的 javascript(可能已经计算了 OCR 输出)。
  • OCR的输出添加到div里面的highlight-panediv
于 2013-03-02T07:37:46.117 回答
0

OCR 有两种基本方法:矩阵匹配和特征提取。在识别字符的两种方式中,矩阵匹配是更简单、更常见的一种。

矩阵匹配将 OCR 扫描仪视为字符的内容与字符矩阵或模板库进行比较。当图像在给定的相似度范围内与这些规定的点矩阵之一匹配时,计算机将该图像标记为相应的 ASCII 字符。

特征提取是没有严格匹配规定模板的 OCR。也称为智能字符识别 (ICR) 或拓扑特征分析,此方法因制造商应用了多少“计算机智能”而异。计算机寻找一般特征,例如开放区域、封闭形状、对角线、线交叉点等。这种方法比矩阵匹配更通用。当 OCR 遇到有限的类型样式库时,矩阵匹配效果最好,每种样式几乎没有变化。在字符难以预测的情况下,特征或地形分析更胜一筹。

如果您想了解更多信息,请访问:http ://www.dataid.com/aboutocr.htm

于 2013-02-10T02:47:44.650 回答