4

我正在为 Apache Tika 的 PDF 寻找类似于 PDFBox 的解决方案,但是,对于 PS 文件。

谢谢。

4

2 回答 2

1

正如 James Black 所说,最好只是转换为 PDF 并使用您熟悉的工具。

但是,确实存在pstotext,它可以在例如 Ubuntu 世界中以它自己的包的形式获得。

Ghostscript 本身也带有 ps2txt 和 ps2ascii,它们也可以做到这一点。

于 2009-11-10T00:45:43.823 回答
1

您可以使用 Ghostscript 转换为 pdf,http://www.osalt.com/ghostscript,然后有各种库来处理 pdf。

这样做的好处是您只从 PDF 中提取,因此您可以处理其他格式,只要您可以将它们转换为 PDF。

于 2009-11-10T00:04:36.507 回答