0

干草。也许你们可以在我的项目中帮助我。我使用 pdfcreator 作为虚拟打印机将一些图像打印到文件中。可以是pdf 可以是任何类型的图像。但我需要从中提取数据。可以吗?我使用 C#。

4

1 回答 1

0

您无法从图像中提取文本。

原则上,您可以从 PDF 中提取文本。

这是使用免费软件命令行实用程序的两种方法;也许其中之一适合您的需求:

  1. pdftotext.exeFoolabs 的 XPDF 实用程序的一部分)
  2. gswin32c.exe(Artifex' Ghostscript

从第 3-7 页提取所有文本的示例命令行:

pdf文本:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

您想将文本输出到标准输出而不是文件吗?好的,试试这个:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript:( 检查您的安装是否ps2ascii.ps在其lib子目录中)

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET 

文本输出将出现在标准输出上。如果您在 cmd.exe 窗口中对此进行测试,您可以通过附加> /path/to/output.txt到命令将其重定向到文件。

于 2010-09-09T23:08:55.677 回答