0

我想解析网站上的 PDF 文件。

谁能说如何使用 Grails 从 PDF 文件中提取文本(逐字)?

4

3 回答 3

1

其他选项包括支持 pdf 和其他格式的Apache Tika以及iText

要与 Groovy/Grails 一起使用,请像使用 Groovy/Grails 一样使用下面的 Java

要将 Apache tika 与 Java 一起使用,您必须:

  • 从 tika.apache.org 下载 tika-app- 1.2.jar
  • 下载 示例程序
  • 使用 javac -cp tika-app-1.2.jar TextExtractor.java 编译程序
  • 提取一些文本 java -cp tika-app-1.2.jar:。TextExtractor aPDFFile.pdf

要将 itext 与 Java 一起使用,您将:

  • 下载itextpdf-5.3.5.jar
  • 编译以下内容:

    import java.io.IOException;
    
    import com.itextpdf.text.pdf.PdfReader;
    import com.itextpdf.text.pdf.parser.PdfTextExtractor;
    
    public class itextHelloWorld {
    
    
       static void extract(String input) throws IOException{
           String path = input;
           PdfReader reader = new PdfReader(path);
           int numberOfPages = reader.getNumberOfPages();
           for (int i = 0;i<numberOfPages;i++) {
               System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
           }
       } 
    
        public static void main(String[] args) throws IOException {
            extract(args[0]);
        }
    }
    
  • 使用 java -cp itextpdf-5.3.5.jar: 提取文本。itextHelloWorld aPDFFile.pdf

于 2013-01-11T22:57:08.190 回答
1

我不知道 Grails / Groovy 但您可以使用 Apache lib PDF Box在您的项目中解析 PDF。

于 2013-01-11T15:13:28.023 回答
0

作为另一种选择,我一直在使用Aspose产品来解决此类问题。我与 Aspose 没有任何关系。我只是喜欢他们的产品。

于 2013-01-11T18:16:07.447 回答