java - 在goole automl enrity提取中发送pdf而不是TextSnippet

Question

我使用谷歌 AutoML 实体提取器创建了一个自定义处理器并训练了一些 pdf。Pdf 实际上包含照片身份证。我能够在他们的 UI 中对其进行测试，并且能够正确提取实体。现在我使用他们的 Java 客户端库使用下面给出的代码来完成它。这是示例

https://github.com/googleapis/java-automl/blob/b4c760c01efbd2174d93af85c5fbab3c09eee9f2/samples/snippets/src/main/java/com/example/automl/LanguageEntityExtractionPredict.java

在这里，我看到他们将文本内容传递到库中，而不是我想发送 PDF 内容。我不想使用谷歌云存储桶，而是想在本地加载文件并将其发送到实体提取器。我尝试使用如下Document类

Document.parseDelimitedFrom(FileInputStream("test.pdf"))但它给了我一个错误。

任何帮助都是高度赞赏的。

score 1 · Accepted Answer

Document.parseDelimitedFrom(FileInputStream("test.pdf"))抛出错误，因为该parseDelimitedFrom()方法需要一个 protobuf 消息来解析不是本地 PDF 文件的 InputStream。话虽如此，目前没有规定可以发送本地文件进行预测，如本 REST API文档中所示。该DocumentInputConfig参数仅支持 GCS 源。

功能要求

我已将此要求作为 Google 问题跟踪器中的功能请求提出。可以在此处找到该问题-问题 #218865096。您可以STAR通过参考此链接来接收自动更新并为其提供牵引力。另外，请注意，功能请求没有时间表，也没有实施保证。有关此功能请求的所有通信都将在问题跟踪器上完成。

java - 在goole automl enrity提取中发送pdf而不是TextSnippet

1 回答 1

Related

Reference