1

我最近刚刚尝试在 VB2010 应用程序中使用 iTextSharp 解析 PDF 文档中的文本数据。该文档不包含任何图像或其他精美元素,仅包含文本。我读过一些文章并使用了一些代码片段,看起来很有希望。但是,我一直在尝试做的只是解析出每个页面的正文,减去页眉或页脚。我还没有找到该特定功能的任何指导。

目前使用在 VB.NET 或 C# 中使用 itextsharp dll 阅读 PDF 内容的片段,但它会解析页面中的所有文本。一定有办法得到尸体。或者至少我希望如此。

4

1 回答 1

2

PDF 通常不包含有关所含文本的逻辑结构的信息。

因此,PDF 中没有页眉、页脚、正文、段落和类似的东西。只有一堆操作,比如“在这里画这个字形”、“移动到这个位置并在那里画那组字形”。我写的是字形而不是字符,因为 PDF 不需要包含可读文本。仅需要指定视觉外观。

一个例外是带标签的 PDF,但大多数 PDF 都没有标签。

鉴于以上所有情况,您可能只剩下以下方法:

  1. 从每个页面中提取所有文本
  2. 分析文本并在每页的开头/结尾找到相似的部分
  3. 删除相似部分

这是一种基于启发式的检测,因此它可能不会总是给出很好的结果。

于 2012-07-10T06:43:42.013 回答