我正在使用 google drive api 来存储和检索 pdf 文件。我想使用搜索参数查询这些文件。
但在我开始实施之前。我想知道谷歌如何处理大型 pdf 文件的索引。(600+ 页 25Mb+)我想知道基于文本的 pdf。(他们不需要 ocr)
我在驱动器网站上尝试了一些搜索,但并不总是有效。
我想知道是否有任何限制以及它们是什么。
我正在使用 google drive api 来存储和检索 pdf 文件。我想使用搜索参数查询这些文件。
但在我开始实施之前。我想知道谷歌如何处理大型 pdf 文件的索引。(600+ 页 25Mb+)我想知道基于文本的 pdf。(他们不需要 ocr)
我在驱动器网站上尝试了一些搜索,但并不总是有效。
我想知道是否有任何限制以及它们是什么。
根据this page for PDFs with OCR:
图像(.jpg、.gif、.png)和 PDF 文件 (.pdf) 的最大大小为 2 MB。对于 PDF 文件,我们在搜索要提取的文本时只查看前 10 页。
此页面适用于带有文本的 PDF :
您可以通过以下方式在 PDF 和图像文件中搜索文本:
理论上,您应该能够搜索您上传的任何文本文档或基于文本的 PDF 的前 100 页。您还可以在您的云端硬盘上搜索任何图像 PDF 的前十页中的文本。