-2

如何在 Java 中使用 Aspose PDF 从 pdf 文件中提取文本?我正在从 Aspose API 中寻找这个功能(没有代码示例?)

编辑-
要求:

假设一个 pdf 在随机位置有这个文本以及一些其他数据。

First Name: John
Last Name: Doe
City: New York
Phone: (999)-999-9999

注意: 如果它们是 pdf 文件的字段,我可以轻松获取这些值。这些位于一些随机位置,而不是单独的字段。

John, Doe, New York, (999)-999-9999每个文档的值发生变化的地方。

我应该能够搜索,First Name, Last Name, City, Phone所以它也会返回它的前一个值。

有什么建议么?

4

1 回答 1

1

@intruder,您可以使用正则表达式来检索所需的文本字符串。Aspose.PDF for Java API 接受正则表达式,请尝试如下代码:

爪哇

Document pdfDocument = new Document("source.pdf");
// like 1999-2000
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("\\d{4}-\\d{4}"); 
TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textFragmentAbsorber.setTextSearchOptions(textSearchOptions);
pdfDocument.getPages().accept(textFragmentAbsorber);
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.getTextFragments();
for (TextFragment textFragment : (Iterable<TextFragment>) textFragmentCollection) 
    System.out.println("Text :- " + textFragment.getText());

我与 Aspose 合作,担任开发人员传道者。

于 2018-04-04T04:31:54.793 回答