1

我正在尝试制作一个 iOS 应用程序,该应用程序将从 pdf 文件中提取纯文本并将其显示在UITextView. 它根本不是用于查看 pdf 文件的 pdf 阅读器,但我稍后希望对该文本执行某些操作。我已经用谷歌搜索了很多,但仍然无法获得确切的解决方案。

我已经尝试使用https://github.com/zachron/pdfiphone 但文件使用的是 ARMV6 架构,这在 xcode 4.5 中似乎已经过时

如果有人可以使用 iOS 的 Quartz-2d 框架提出一些准确且不混淆的代码,那就太好了。

4

3 回答 3

2

是从 PDF 中提取文本的示例代码,希望对您有所帮助。

https://github.com/zachron/pdfiphone

这是一个用于从 iPhone 的 PDF 中获取文本的库。

另一个演示是使用OCR 技术找到下面的链接

https://github.com/nolanbrown/Tesseract-iPhone-Demo

另请查看Quartz 2D Programming Guide的页面,它涵盖了在 iOS 中打开和解析 PDF 文件所需的一切。请注意,这不是一项简单的任务,因为没有方法可以在一行中提取全文。您必须使用数据作为输入流,使用CGPDFScanner

其他两个库

  1. https://github.com/KurtCode/PDFKitten/
  2. https://github.com/mobfarm/FastPdfKit
于 2012-12-26T07:25:12.773 回答
2

这个问题无时无刻不在出现。一般来说,从 PDF 中提取文本非常困难。PDF 规范在设计时并未考虑到文本提取。有许多库试图完成这项工作,主要是通过从各个字形的几何位置重构文本。这些库有不同程度的成功,但在某些 PDF 文档上都会失败。事实上,一些 PDF 文档有字形,但无法将字形与字符相关联。对于这些文档,根本不可能提取文本,除非使用某种 OCR 方法。

PDF 被设计为一种可移植的只读格式,因为 PDF 文档将在任何平台上以相同的方式呈现。这是它最擅长的,也是它应该用于的。

如果要编辑文本,请不要使用 PDF。

于 2016-02-25T04:22:38.653 回答
0

在这里(使用objective-c从pdf中提取文本),我找到了您问题的答案并且它有效。但没有我需要的那么好:(

  • 它只能提取ascii
  • 它只给我一个段落

祝你好运。

于 2014-10-17T11:46:52.897 回答