我正在寻找一个命令行程序,它将打印出 PDF 文件的文本,就像cat
文本文件一样。
我找到pdftotxt
了,这将是可行的,但我更喜欢复制cat
功能的东西,因为我想通过管道传输到grep
. 谢谢!
我正在寻找一个命令行程序,它将打印出 PDF 文件的文本,就像cat
文本文件一样。
我找到pdftotxt
了,这将是可行的,但我更喜欢复制cat
功能的东西,因为我想通过管道传输到grep
. 谢谢!
在手册页上pdftotext
,我发现了这个:
pdftotext [选项] [PDF 文件 [文本文件]]
说明 Pdftotext 将可移植文档格式 (PDF) 文件转换为纯文本。
Pdftotext 读取 PDF 文件 PDF-file,并写入文本文件 text-file。如果未指定 text-file,则 pdftotext 将 file.pdf 转换为 file.txt。如果 text-file 是“-”,则将文本发送到标准输出。
因此输出到stdout
以管道grep
使用它:
pdftotext mydoc.pdf - | grep mysearchterm
也许你可以试试这个:https ://github.com/luochen1990/nodejs-easy-pdf-parser
它是一个 npm 包,您需要安装 nodejs(和 npm)才能使用它。
它可以用作命令行工具:
npm install -g easy-pdf-parser
pdf2text test.pdf > test.txt
这个工具会根据它们的 y 坐标对文本行进行排序,所以它在大多数情况下都很好用。它也适用于 unicode 和跨平台(作为比较:mingw64pdftotext
会在 windows 上丢失 unicode 字符)。