是否有任何清晰和适当的过程可以将 pdf 文件转换为包含 asp.net 网络应用程序中所有格式和图像的 word 文件?
问问题
646 次
2 回答
1
最好的方法是使用 OCR。它将识别 PDF 文件中的文本和图像,然后您可以将其保存在 DOC 文件中。我知道一个名为 Leadtools 的第三方工具包应该可以帮助您满足您的要求,因为它支持 ASP.NET 环境。您可以查看他们的在线 OCR 演示 此外,您可以查看他们的网站以获取更多信息,或联系他们的支持团队。
于 2012-11-01T15:17:53.537 回答
0
PDF 是一种演示格式,其中所有内容都按绝对位置放置。没有段落和其他结构化元素(除非它是带标签的 PDF)。从技术上讲,您可以以任何顺序逐个字符地输出每个单词,但在视觉上它看起来像普通文本。因此,要正确转换为单词,需要进行内容识别或某种 OCR(例如 ABBYY FineReader)
市场上有一些付费组件允许进行文本提取,还有一些允许将页面转换为图像(显然,这不是转换为单词的理想方法)。
于 2012-10-31T07:16:42.997 回答