1

我使用谷歌 AutoML 实体提取器创建了一个自定义处理器并训练了一些 pdf。Pdf 实际上包含照片身份证。我能够在他们的 UI 中对其进行测试,并且能够正确提取实体。现在我使用他们的 Java 客户端库使用下面给出的代码来完成它。这是示例

https://github.com/googleapis/java-automl/blob/b4c760c01efbd2174d93af85c5fbab3c09eee9f2/samples/snippets/src/main/java/com/example/automl/LanguageEntityExtractionPredict.java

在这里,我看到他们将文本内容传递到库中,而不是我想发送 PDF 内容。我不想使用谷歌云存储桶,而是想在本地加载文件并将其发送到实体提取器。我尝试使用如下Document

Document.parseDelimitedFrom(FileInputStream("test.pdf"))但它给了我一个错误。

任何帮助都是高度赞赏的。

4

1 回答 1

1

Document.parseDelimitedFrom(FileInputStream("test.pdf"))抛出错误,因为该parseDelimitedFrom()方法需要一个 protobuf 消息来解析不是本地 PDF 文件的 InputStream。话虽如此,目前没有规定可以发送本地文件进行预测,如本 REST API文档中所示。该DocumentInputConfig参数仅支持 GCS 源。


功能要求

我已将此要求作为 Google 问题跟踪器中的功能请求提出。可以在此处找到该问题-问题 #218865096。您可以STAR通过参考此链接来接收自动更新并为其提供牵引力。另外,请注意,功能请求没有时间表,也没有实施保证。有关此功能请求的所有通信都将在问题跟踪器上完成。

于 2022-02-10T17:12:53.790 回答