java - 在 Java 中使用 Aspose PDF 从特定页面中提取特定文本

Question

如何在 Java 中使用 Aspose PDF 从 pdf 文件中提取文本？我正在从 Aspose API 中寻找这个功能（没有代码示例？）

编辑-
要求：

假设一个 pdf 在随机位置有这个文本以及一些其他数据。

First Name: John
Last Name: Doe
City: New York
Phone: (999)-999-9999

注意： 如果它们是 pdf 文件的字段，我可以轻松获取这些值。这些位于一些随机位置，而不是单独的字段。

John, Doe, New York, (999)-999-9999每个文档的值发生变化的地方。

我应该能够搜索，First Name, Last Name, City, Phone所以它也会返回它的前一个值。

有什么建议么？

score 1 · Accepted Answer

@intruder，您可以使用正则表达式来检索所需的文本字符串。Aspose.PDF for Java API 接受正则表达式，请尝试如下代码：

爪哇

Document pdfDocument = new Document("source.pdf");
// like 1999-2000
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("\\d{4}-\\d{4}"); 
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.setTextSearchOptions(textSearchOptions);
pdfDocument.getPages().accept(textFragmentAbsorber);
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.getTextFragments();
for (TextFragment textFragment : (Iterable<TextFragment>) textFragmentCollection) 
    System.out.println("Text :- " + textFragment.getText());

我与 Aspose 合作，担任开发人员传道者。

java - 在 Java 中使用 Aspose PDF 从特定页面中提取特定文本

1 回答 1

Related

Reference