vb.net - 从 PDF 解析正文文本

Question

我最近刚刚尝试在 VB2010 应用程序中使用 iTextSharp 解析 PDF 文档中的文本数据。该文档不包含任何图像或其他精美元素，仅包含文本。我读过一些文章并使用了一些代码片段，看起来很有希望。但是，我一直在尝试做的只是解析出每个页面的正文，减去页眉或页脚。我还没有找到该特定功能的任何指导。

目前使用在 VB.NET 或 C# 中使用 itextsharp dll 阅读 PDF 内容的片段，但它会解析页面中的所有文本。一定有办法得到尸体。或者至少我希望如此。

score 2 · Accepted Answer

PDF 通常不包含有关所含文本的逻辑结构的信息。

因此，PDF 中没有页眉、页脚、正文、段落和类似的东西。只有一堆操作，比如“在这里画这个字形”、“移动到这个位置并在那里画那组字形”。我写的是字形而不是字符，因为 PDF 不需要包含可读文本。仅需要指定视觉外观。

一个例外是带标签的 PDF，但大多数 PDF 都没有标签。

鉴于以上所有情况，您可能只剩下以下方法：

从每个页面中提取所有文本
分析文本并在每页的开头/结尾找到相似的部分
删除相似部分

这是一种基于启发式的检测，因此它可能不会总是给出很好的结果。

vb.net - 从 PDF 解析正文文本

1 回答 1

Related

Reference