我有一个包含一些表格数据的 PDF 文件。
http://dl.dropbox.com/u/44235928/sample_rotate-0.pdf
我必须从中提取表格数据。我试过以下但没有成功:
- 选择文本并将其粘贴到记事本/excel-sheet。(我收到垃圾字符)
- 用于从 Acrobat Reader 中另存为文本。它还提供垃圾字符而不是实际文本。
- 尝试使用 ApachePDFBox 命令行实用程序从 PDF 中提取文本。它还提供垃圾字符而不是真实文本。
- 最后,我正在尝试 OCR 解决方案。我正在使用 ImageMagick 将 pdf 文件转换为 .tif 图像,并让这些图像由 tesseract OCR 处理。
OCR 解决方案虽然不是很准确(大约 80% 的单词匹配)。
我尝试更改从 PDF 创建的图像的密度和几何形状,以从 tesseract OCR 获得更好的结果。
convert -rotate 90 -geometry 10000 -depth 8 -density 800 sample.pdf img_800_10000.tif;
tesseract img_800_10000.tif img_800_10000.tif nobatch letters;
我不确定哪种图像(密度、几何、单色、锐化边界等)最适合 OCR。
请建议从 PDF 文件生成图像的最佳参数(密度、几何形状、深度等),以便提高 tesseract 精度。
我也对其他(非 ocr)解决方案持开放态度。