Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想将 pdf 文件读入管道。但是,除了纯文本或 xml 之外,我还没有找到任何关于文件格式的 apache 梁示例。
Dataflow 或 Apache Beam 库中没有预先存在的 PDF 阅读器。但是,您可以使用 TensorFlow 记录的此阅读器示例作为模型,使用您选择的 PDF 解析库编写您自己的模型。
https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java