Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我最近刚刚尝试在 VB2010 应用程序中使用 iTextSharp 解析 PDF 文档中的文本数据。该文档不包含任何图像或其他精美元素,仅包含文本。我读过一些文章并使用了一些代码片段,看起来很有希望。但是,我一直在尝试做的只是解析出每个页面的正文,减去页眉或页脚。我还没有找到该特定功能的任何指导。
目前使用在 VB.NET 或 C# 中使用 itextsharp dll 阅读 PDF 内容的片段,但它会解析页面中的所有文本。一定有办法得到尸体。或者至少我希望如此。
PDF 通常不包含有关所含文本的逻辑结构的信息。
因此,PDF 中没有页眉、页脚、正文、段落和类似的东西。只有一堆操作,比如“在这里画这个字形”、“移动到这个位置并在那里画那组字形”。我写的是字形而不是字符,因为 PDF 不需要包含可读文本。仅需要指定视觉外观。
一个例外是带标签的 PDF,但大多数 PDF 都没有标签。
鉴于以上所有情况,您可能只剩下以下方法:
这是一种基于启发式的检测,因此它可能不会总是给出很好的结果。