web-applications - 使用 Grails 阅读 PDF 文件

Question

我想解析网站上的 PDF 文件。

谁能说如何使用 Grails 从 PDF 文件中提取文本（逐字）？

score 1 · Accepted Answer

其他选项包括支持 pdf 和其他格式的Apache Tika以及iText。

要与 Groovy/Grails 一起使用，请像使用 Groovy/Grails 一样使用下面的 Java

要将 Apache tika 与 Java 一起使用，您必须：

从 tika.apache.org 下载 tika-app- 1.2.jar
下载此示例程序
使用 javac -cp tika-app-1.2.jar TextExtractor.java 编译程序
提取一些文本 java -cp tika-app-1.2.jar:。TextExtractor aPDFFile.pdf

要将 itext 与 Java 一起使用，您将：

下载itextpdf-5.3.5.jar

编译以下内容：

import java.io.IOException;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class itextHelloWorld {


   static void extract(String input) throws IOException{
       String path = input;
       PdfReader reader = new PdfReader(path);
       int numberOfPages = reader.getNumberOfPages();
       for (int i = 0;i<numberOfPages;i++) {
           System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
       }
   } 

    public static void main(String[] args) throws IOException {
        extract(args[0]);
    }
}

使用 java -cp itextpdf-5.3.5.jar: 提取文本。itextHelloWorld aPDFFile.pdf

score 1 · Accepted Answer

1

我不知道 Grails / Groovy 但您可以使用 Apache lib PDF Box在您的项目中解析 PDF。

于 2013-01-11T15:13:28.023 回答

score 0 · Accepted Answer

作为另一种选择，我一直在使用Aspose产品来解决此类问题。我与 Aspose 没有任何关系。我只是喜欢他们的产品。

web-applications - 使用 Grails 阅读 PDF 文件

3 回答 3

Related

Reference