12

我正在寻找一个命令行程序,它将打印出 PDF 文件的文本,就像cat文本文件一样。

我找到pdftotxt了,这将是可行的,但我更喜欢复制cat功能的东西,因为我想通过管道传输到grep. 谢谢!

4

2 回答 2

36

在手册页上pdftotext,我发现了这个:

pdftotext [选项] [PDF 文件 [文本文件]]

说明 Pdftotext 将可移植文档格式 (PDF) 文件转换为纯文本。

Pdftotext 读取 PDF 文件 PDF-file,并写入文本文件 text-file。如果未指定 text-file,则 pdftotext 将 file.pdf 转换为 file.txt。如果 text-file 是“-”,则将文本发送到标准输出。

因此输出到stdout以管道grep使用它:

pdftotext mydoc.pdf - | grep mysearchterm
于 2011-10-10T22:50:20.537 回答
1

也许你可以试试这个:https ://github.com/luochen1990/nodejs-easy-pdf-parser

它是一个 npm 包,您需要安装 nodejs(和 npm)才能使用它。

它可以用作命令行工具:

npm install -g easy-pdf-parser
pdf2text test.pdf > test.txt

这个工具会根据它们的 y 坐标对文本行进行排序,所以它在大多数情况下都很好用。它也适用于 unicode 和跨平台(作为比较:mingw64pdftotext会在 windows 上丢失 unicode 字符)。

于 2018-07-14T09:22:06.640 回答