6

是否有任何工具可以在 pdf 文件中的文本内容上查找 XY 位置?

4

3 回答 3

5

Docotic.Pdf 库可以做到。请参阅下面的 C# 示例:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}
于 2011-01-20T16:46:28.730 回答
1

尝试在 Acrobat 中运行“预检...”并选择PDF Analysis -> List page objects, grouped by type of object.

如果您在结果列表中找到文本对象,您会注意到该部分中有一个位置值(以磅为单位)Text Properties -> * Font

于 2011-01-19T20:32:41.340 回答
1

TET , pdflib系列产品的文本提取工具包可以做到这一点。TET 有一个命令行界面,它是我所知道的所有文本提取工具中功能最强大的。(它甚至可以处理连字...)

几何
TET 为文本提供精确的度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中,例如忽略页眉和页脚或页边距。

于 2011-01-23T02:16:55.840 回答