0

您好,我正在开发一个速读应用程序,我正在寻找一些提示或建议。在这个应用程序中,我必须使用不同的阅读技术,这需要从 pdf 中格式化不同大小的文本。用于无图片自动滚动的技术。有人已经知道谁来做这件事了吗?或者有我的例子?

4

1 回答 1

1

如果 PDF 包含格式奇怪的文本或包含在图像中的文本,那么您就没有运气,否则有几个 ObjC 库可用(在 github 上)

它们都封装了 CoreGraphics CDPDF* 函数

这不是那么容易,也不能用一条线来回答,但基本方法是:

  1. 得到一个 CGPDFDocument
  2. 获取每个 PDFPage
  3. 获取每个页面的 CGPDFDictionary 并解析它。它会给你pdf页面中的所有对象
  4. 对于您遇到的每个字符串,调用 CGPDFStringCopy 并将其附加到一个 mutableString 用作您的缓冲区
  5. 缓冲区是文档的文本
于 2012-12-14T10:40:44.853 回答