如何从 .NET 中的 PDF 文档中提取文本?另外,如何获取页面上每个单词的坐标?我可以用iTextSharp或其他一些组件来做到这一点吗?
问问题
319 次
2 回答
0
借助Docotic.Pdf 库可以轻松完成该任务。
下面的代码将所有单词及其坐标写入系统控制台,并在每个找到的单词周围绘制矩形。
public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
using (PdfDocument pdf = new PdfDocument(inputFileName))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
System.Console.WriteLine(data.ToString());
page.Canvas.DrawRectangle(data.Bounds);
}
pdf.Save(outputFileName);
}
System.Diagnostics.Process.Start(outputFileName);
}
除此之外,该库可以提取格式化文本(PdfPage.GetTextWithFormatting方法)甚至单个字符(PdfPage.GetChars方法)
免责声明:我是该库的开发人员之一。
于 2013-08-13T14:59:20.573 回答
-2
这是我发现的最好的工具,但它不是免费的(而且它也不便宜)。
于 2013-08-14T12:04:30.380 回答