我想解析网站上的 PDF 文件。
谁能说如何使用 Grails 从 PDF 文件中提取文本(逐字)?
其他选项包括支持 pdf 和其他格式的Apache Tika以及iText。
要与 Groovy/Grails 一起使用,请像使用 Groovy/Grails 一样使用下面的 Java
要将 Apache tika 与 Java 一起使用,您必须:
要将 itext 与 Java 一起使用,您将:
编译以下内容:
import java.io.IOException;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public class itextHelloWorld {
static void extract(String input) throws IOException{
String path = input;
PdfReader reader = new PdfReader(path);
int numberOfPages = reader.getNumberOfPages();
for (int i = 0;i<numberOfPages;i++) {
System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
}
}
public static void main(String[] args) throws IOException {
extract(args[0]);
}
}
使用 java -cp itextpdf-5.3.5.jar: 提取文本。itextHelloWorld aPDFFile.pdf
我不知道 Grails / Groovy 但您可以使用 Apache lib PDF Box在您的项目中解析 PDF。
作为另一种选择,我一直在使用Aspose产品来解决此类问题。我与 Aspose 没有任何关系。我只是喜欢他们的产品。