c# - 是否可以使用 C# 根据文本将 PDF 拆分为单独的文件？

Question

我有一个包含多条记录的大型单个 pdf 文档。每条记录通常占用一页，但有些记录使用 2 页。记录以定义的文本开头，始终相同。

我的目标是将此 pdf 拆分为单独的 pdf，并且拆分应始终在找到“标题文本”之前进行。

score 0 · Accepted Answer

是的，这是可能的。

TikaOnDotnet

看看 TikaOnDotnet.TextExtractor，它是 Tika 文本提取 Java 库的包装器。

您可以像这样轻松地从 pdf 中获取数据：

var text = new TextExtractor().Extract(file.FullName).Text;

文档： https ://github.com/KevM/tikaondotnet

nuget： https ://www.nuget.org/packages/TikaOnDotnet.TextExtractor/

您也可以使用 itext7

文档： https ://api.itextpdf.com/iText7/dotnet/7.1.9/index.html

nuget： https ://www.nuget.org/packages/itext7/