寻找一个免费/付费的 .net 库来提取给定 Acrobat (.pdf) 文档的文本/图形/图像元素,最好作为对象模型,以便我们可以将其转换为专有的所见即所得编辑器可以理解的另一种格式。
如果无法直接翻译,想看看可以采取哪些可能的方法来分别抓取文本元素、形状/图形、图像。目标格式要求使用页面上的 x,y 位置显式定位元素,并且 PDF 提取库有必要告诉我页面内已解析元素的坐标。
任何建议将不胜感激。
寻找一个免费/付费的 .net 库来提取给定 Acrobat (.pdf) 文档的文本/图形/图像元素,最好作为对象模型,以便我们可以将其转换为专有的所见即所得编辑器可以理解的另一种格式。
如果无法直接翻译,想看看可以采取哪些可能的方法来分别抓取文本元素、形状/图形、图像。目标格式要求使用页面上的 x,y 位置显式定位元素,并且 PDF 提取库有必要告诉我页面内已解析元素的坐标。
任何建议将不胜感激。
您可以将Docotic.Pdf 库用于该任务。
该库可以从 PDF 中提取文本,并提供有关每个单词甚至字符的坐标的信息。它可以从 PDF 文档中提取图像,同时提供有关图像位置、大小和转换的信息。
免责声明:我为图书馆的供应商工作。