pdf - OCR 如何在 Google Drive 中工作？

Question

我注意到Google Drive 可以识别 PDF（以及其他文件，如图像和文本文档）中的文本。出于好奇，我想知道他们做了什么来显示可选择和可搜索的 img 标签。例如，当我在 Chrome 开发人员工具中检查 Google Drive 文档时，每个页面都是一个图像，但它不像图像，因为文本是可选择的。另一方面，当我放大时，似乎加载了另一个分辨率更高的图像。我认为这与 scribd 使用的技巧相同。

我还读到 Google 一直在改进tesseract-ocr，并且 Google Books 团队帮助 Google Drive 中的 OCR 实施，但我不确定以他们的方式生成 img 标签的过程是什么。

幕后发生了什么？

谢谢！

score 3 · Accepted Answer

我不能确定到底发生了什么，但我会把我的发现告诉你。如果您查看驱动器中文件的 pdf 视图的 HTML 代码，您会发现类似这样的内容。

<div id="page-pane" class="">
   <div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
      <div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane">
            <div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
            <div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
            <div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
         </div>
         <div class="highlight-pane"></div>
         <div class="highlight-pane"></div>
         <img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&amp;w=800" />
         <p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
      </div>
   </div>

（pdf的第0页）中有四个highlight-panediv和一个imgdiv 。div 显示您谈论的图像2h.page.0。img这只是一个简单的图像，这里没有 OCR。您提到的选定文本来自第二个highlight-pane，当您在图像上拖动一个框时，它会动态添加 div。第二个中的三个 divhighlight-pane代表选定的文本（对应于三行选定的文本）。

当您访问页面时会发生以下情况。

从存储在驱动器中的 pdf 查看页面图像。
您在页面上选择了一些东西。您创建一个拖动框。
选择触发在 pdf 上运行 OCR 的 javascript（可能已经计算了 OCR 输出）。
OCR的输出添加到div里面的highlight-panediv

score 0 · Accepted Answer

OCR 有两种基本方法：矩阵匹配和特征提取。在识别字符的两种方式中，矩阵匹配是更简单、更常见的一种。

矩阵匹配将 OCR 扫描仪视为字符的内容与字符矩阵或模板库进行比较。当图像在给定的相似度范围内与这些规定的点矩阵之一匹配时，计算机将该图像标记为相应的 ASCII 字符。

特征提取是没有严格匹配规定模板的 OCR。也称为智能字符识别 (ICR) 或拓扑特征分析，此方法因制造商应用了多少“计算机智能”而异。计算机寻找一般特征，例如开放区域、封闭形状、对角线、线交叉点等。这种方法比矩阵匹配更通用。当 OCR 遇到有限的类型样式库时，矩阵匹配效果最好，每种样式几乎没有变化。在字符难以预测的情况下，特征或地形分析更胜一筹。

如果您想了解更多信息，请访问：http ://www.dataid.com/aboutocr.htm

pdf - OCR 如何在 Google Drive 中工作？

2 回答 2

Related

Reference