Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我可以在我的 ASP.net 应用程序中使用 PDFBOX 读取 pdf 文件,但它没有为表格中的空单元格添加空间,因此如何在 C# 中使用 PDFBOX 从 pdf 文件中读取空字段。有没有其他方法可以读取pdf文件。
谢谢 。
如果您提前知道文本的确切位置并且可以在提取文本时获取文本的位置,则您可能能够完成这种事情。
如果您事先不知道行和单元格的位置,则必须根据文本位置进行猜测。这并不容易。
一般来说,不建议从 PDF 中提取数据。PDF 没有“表格”的概念(除非 PDF 创建者不遗余力地使用“标记内容”,这仍然很少见)。PDF 有线条、字形和图像(一堆像素)。从这些信息中提取格式非常困难……有时几乎是不可能的。
我不知道 PDFBox 是否会为您提供提取文本的位置,但 iTextSharp 会。