sejda - 从多页 PDF 集合中提取页面级 ASCII 文本？

Question

我正在尝试从一系列多页 PDF中获取页面级ASCII文本。我当前的过程是使用 Sejda（一个很棒的工具）批量拆分所有 PDF，然后从拆分的 PDF（在 Sejda 中作为批处理）提取文本到相应的文本文件。有没有一种简单的方法可以绕过拆分阶段，直接进入页面级TXT文件？我只想输入一个多页 PDF 的集合，并为每个 PDF 的每一页输出一个相应的 TXT 文件。任何输入或见解将不胜感激。

我的过程

File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc

score 1 · Accepted Answer

Sejda 版本 1.0.0.M8具有您正在寻找的任务：ExtractTextByPages

命令行中的示例用法：

bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5

sejda - 从多页 PDF 集合中提取页面级 ASCII 文本？

1 回答 1

Related

Reference