我不能确定到底发生了什么,但我会把我的发现告诉你。如果您查看驱动器中文件的 pdf 视图的 HTML 代码,您会发现类似这样的内容。
<div id="page-pane" class="">
<div id=":2h.page.0" class="page-element goog-inline-block" style="width: 820px;">
<div>
<div class="highlight-pane"></div>
<div class="highlight-pane">
<div class="highlight selection-highlight" style="left: 154px; top: 142px; width: 268px; height: 13px;"></div>
<div class="highlight selection-highlight" style="left: 105px; top: 164px; width: 73px; height: 14px;"></div>
<div class="highlight selection-highlight" style="left: 154px; top: 181px; width: 128px; height: 13px;"></div>
</div>
<div class="highlight-pane"></div>
<div class="highlight-pane"></div>
<img class="page-image" style="width: 800px; height: 1131px; display: none;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&w=138" /><img class="page-image" style="width: 800px;" src="https://docs.google.com/file/d/0BzxfQAgMGNM6VGg4RFlBZkdoOWM/image?pagenumber=1&w=800" />
<p id=":2h.a11y.0" class="accessibility-text" tabindex="-1"></p>
</div>
</div>
(pdf的第0页)中有四个highlight-pane
div和一个img
div 。div 显示您谈论的图像2h.page.0
。img
这只是一个简单的图像,这里没有 OCR。您提到的选定文本来自第二个highlight-pane
,当您在图像上拖动一个框时,它会动态添加 div。第二个中的三个 divhighlight-pane
代表选定的文本(对应于三行选定的文本)。
当您访问页面时会发生以下情况。
- 从存储在驱动器中的 pdf 查看页面图像。
- 您在页面上选择了一些东西。您创建一个拖动框。
- 选择触发在 pdf 上运行 OCR 的 javascript(可能已经计算了 OCR 输出)。
- OCR的输出添加到div里面的
highlight-pane
div