我正在尝试开发一个应用程序,在其中我使用 Accusoft pdfXpress 矩形工具在 PDF 上绘制一个矩形,现在我有了我选择的段落的坐标。现在我想做的是用字体从这个区域提取文本。
经过太多的研究,我通过 iTextSharp、PDFBOX、Aspose 等许多库提取了纯文本,并尝试了字体提取,但我无法获取带有字体的文本。请为此提供一些帮助。
使用 PDFTextstream 我得到这样的纯文本:
public string gettextf(float x, float y, float w, float h, string docpath)
{
PDFTextStream stream = new PDFTextStream(docpath);
RegionOutputTarget tgt = new RegionOutputTarget();
tgt.addRegion(x, y, w, h, "name");
tgt.addRegion(40, 570, 120, 16, "address");
Page p = stream.getPage(0);
p.pipe(tgt);
stream.close();
String name = tgt.getRegionText("name");
String address = tgt.getRegionText("address");
return name;
}