google-cloud-vision - Cloud Vision API - PDF OCR

Question

我刚刚测试了 Google Cloud Vision API 以读取图像中的文本（如果存在）。

到目前为止，我安装了 Maven 服务器和 Redis 服务器。我只是按照此页面中的说明进行操作。

https://github.com/GoogleCloudPlatform/cloud-vision/tree/master/java/text

到目前为止，我能够使用 .jpg 文件进行测试，是否可以使用 tiff 文件或 pdf 文件进行测试？

我正在使用以下命令：

java -cp target/text-1.0-SNAPSHOT-jar-with-dependencies.jar     com.google.cloud.vision.samples.text.TextApp ../../data/text/

在文本目录中，我有 jpg 格式的文件。

然后读取转换后的文件，我不知道该怎么做，只是我运行以下命令

java -cp target/text-1.0-SNAPSHOT-jar-with-dependencies.jar com.google.cloud.vision.samples.text.TextApp

并且我收到消息输入要在转换后的文件中搜索的单词或短语。有没有办法查看整个文档的转换？

谢谢！

score 19 · Accepted Answer

2018年4 月 6 日， Google Cloud Vision API 添加了对文档文本检测中的 PDF 和 TIFF 文件的支持（请参阅发行说明）。

根据文档：

Vision API 可以检测和转录存储在 Google Cloud Storage 中的 PDF 和 TIFF 文件中的文本。
必须使用 asyncBatchAnnotate函数请求来自 PDF 和 TIFF 的文档文本检测，该函数执行异步请求并使用操作资源提供其状态。
PDF/TIFF 请求的输出被写入在指定的 Google Cloud Storage 存储桶中创建的 JSON 文件。

例子：

1) 将文件上传到您的 Google Cloud Storage

2) 发出 POST 请求以执行 PDF/TIFF 文档文本检测

要求：

POST https://vision.googleapis.com/v1p2beta1/files:asyncBatchAnnotate
Authorization: Bearer <your access token>

{
  "requests":[
    {
      "inputConfig": {
        "gcsSource": {
          "uri": "gs://<your bucket name>/input.pdf"
        },
        "mimeType": "application/pdf"
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ],
      "outputConfig": {
        "gcsDestination": {
          "uri": "gs://<your bucket name>/output/"
        },
        "batchSize": 1
      }
    }
  ]
}

回复：

{
  "name": "operations/9b1f9d773d216406"
}

3) 发出 GET 请求以检查文档文本检测是否完成

要求：

GET https://vision.googleapis.com/v1/operations/9b1f9d773d216406
Authorization: Bearer <your access token>

回复：

{
    "name": "operations/9b1f9d773d216406",
    "metadata": {
        "@type": "type.googleapis.com/google.cloud.vision.v1p2beta1.OperationMetadata",
        "state": "RUNNING",
        "updateTime": "2018-06-17T20:18:09.117787733Z"
    },
    "done": true,
    "response": {
        "@type": "type.googleapis.com/google.cloud.vision.v1p2beta1.AsyncBatchAnnotateFilesResponse",
        "responses": [
            {
                "outputConfig": {
                    "gcsDestination": {
                        "uri": "gs://<your bucket name>/output/"
                    },
                    "batchSize": 1
                }
            }
        ]
    }
}

4) 在指定的 Google Cloud Storage 文件夹中查看结果

score 11 · Accepted Answer

在 2016 年，Cloud Vision 不支持 PDF 和 TIFF 格式。

接受的格式是：（取自文档）

JPEG
PNG8
PNG24
动图
动画 GIF（仅限第一帧）
BMP
WEBP
生的
ICO

不过现在都加了。

文档jpg：

https://cloud.google.com/vision/docs/ocr

文档pdf

https://cloud.google.com/vision/docs/pdf

score 8 · Accepted Answer

https://cloud.google.com/vision/docs/pdf

我知道这个问题很老了，但现在 Google Vision 发布了对 PDF 的支持！

score 1 · Accepted Answer

现在谷歌云视觉文本检测也可用于 pdf 文件，它以同步方式立即检测 pdf 文件中的文本，并且不需要文件在谷歌存储中，它可以是 base 64 格式。

HTTP 方法和 URL：

POST https://vision.googleapis.com/v1/files:annotate 请求 JSON 正文：

{
  "requests": [
    {
      "inputConfig": {
        "content": "base64-encoded-file",
        "mimeType": "application/pdf"
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ],
      "pages": [
        1,2,3,4,5
      ]
    }
  ]
}

有关它的更多信息，请访问https://cloud.google.com/vision/docs/file-small-batch

google-cloud-vision - Cloud Vision API - PDF OCR

4 回答 4

Related

Reference