干草。也许你们可以在我的项目中帮助我。我使用 pdfcreator 作为虚拟打印机将一些图像打印到文件中。可以是pdf 可以是任何类型的图像。但我需要从中提取数据。可以吗?我使用 C#。
问问题
295 次
1 回答
0
您无法从图像中提取文本。
原则上,您可以从 PDF 中提取文本。
这是使用免费软件命令行实用程序的两种方法;也许其中之一适合您的需求:
pdftotext.exe
(Foolabs 的 XPDF 实用程序的一部分)gswin32c.exe
(Artifex' Ghostscript)
从第 3-7 页提取所有文本的示例命令行:
pdf文本:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
"d:\path\to\output.txt"
您想将文本输出到标准输出而不是文件吗?好的,试试这个:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
-
Ghostscript:(
检查您的安装是否ps2ascii.ps
在其lib子目录中)
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=3 ^
-dLastPage=7 ^
"c:/path/to/input.pdf" ^
-dQUIET
文本输出将出现在标准输出上。如果您在 cmd.exe 窗口中对此进行测试,您可以通过附加> /path/to/output.txt
到命令将其重定向到文件。
于 2010-09-09T23:08:55.677 回答