0

我有一个包含多条记录的大型单个 pdf 文档。每条记录通常占用一页,但有些记录使用 2 页。记录以定义的文本开头,始终相同。

我的目标是将此 pdf 拆分为单独的 pdf,并且拆分应始终在找到“标题文本”之前进行。

4

1 回答 1

0

是的,这是可能的。

TikaOnDotnet

看看 TikaOnDotnet.TextExtractor,它是 Tika 文本提取 Java 库的包装器。

您可以像这样轻松地从 pdf 中获取数据:

var text = new TextExtractor().Extract(file.FullName).Text;

文档: https ://github.com/KevM/tikaondotnet

nuget: https ://www.nuget.org/packages/TikaOnDotnet.TextExtractor/


文本7

您也可以使用 itext7

文档: https ://api.itextpdf.com/iText7/dotnet/7.1.9/index.html

nuget: https ://www.nuget.org/packages/itext7/

于 2019-12-03T11:55:37.810 回答