0

我想将 pdf 文件读入管道。但是,除了纯文本或 xml 之外,我还没有找到任何关于文件格式的 apache 梁示例。

4

1 回答 1

1

Dataflow 或 Apache Beam 库中没有预先存在的 PDF 阅读器。但是,您可以使用 TensorFlow 记录的此阅读器示例作为模型,使用您选择的 PDF 解析库编写您自己的模型。

https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java

于 2017-03-21T18:51:56.560 回答