我有一个包含多条记录的大型单个 pdf 文档。每条记录通常占用一页,但有些记录使用 2 页。记录以定义的文本开头,始终相同。
我的目标是将此 pdf 拆分为单独的 pdf,并且拆分应始终在找到“标题文本”之前进行。
是的,这是可能的。
看看 TikaOnDotnet.TextExtractor,它是 Tika 文本提取 Java 库的包装器。
您可以像这样轻松地从 pdf 中获取数据:
var text = new TextExtractor().Extract(file.FullName).Text;
文档: https ://github.com/KevM/tikaondotnet
nuget: https ://www.nuget.org/packages/TikaOnDotnet.TextExtractor/
您也可以使用 itext7
文档: https ://api.itextpdf.com/iText7/dotnet/7.1.9/index.html