问题标签 [cgpdfscanner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
iphone - iOS:PDF扫描仪获取文本坐标
我正在使用 CGPDFScanner 扫描 pdf。我应该使用 Td 运算符来查找文本的位置吗?我可以举一个例子来说明如何使用这个运算符来获取文本的位置吗?当前我使用 Tj 和 TJ 运算符来查找文本。现在我想知道每个单词在单页pdf中的位置。我怎样才能做到这一点?
谢谢
parsing - 解析PDF在不同页面中两次获得相同的文本
我有一个包含 2 页的 PDF 文件。当我用我的解析器解析它时,在 Ojective-C 中,我有以下情况。
对于第一页,一切都很好,我有我应该有的文本(我在预览、Adobe 阅读器等 pdf 阅读器中直观地看到......)。对于第二页,我有我在第二页中看到的文本加上第一页中的部分文本,这不在第二页中。
我尝试使用其他解析器:pdftotext (xpdf) 他们设法得到了正确的结果。Pdfminer (in python) https://pypi.python.org/pypi/pdfminer/,我得到了和我一样的结果。第一页的部分文本被提取两次。
我的问题是:这怎么会发生?你见过这种情况吗?如果文本确实出现在第二页中,为什么 pdf 阅读器不显示呢?你对此有什么想法吗?
objective-c - 在 xCode 中将 PDF 内容流解析为字符串?
我正在尝试使用 xCode 从 PDF 内部结构中获取内容流。我设法使用以下方法访问内容数组:
CGPDFDictionaryGetArray(str, "内容", &val)
然后计算数组中的对象数量,它返回的 8 远低于 Acrobat Pro 中显示的数量。
数组中的对象似乎是 kCGPDFObjectTypeStream 类型,不确定我能用它做什么。
任何帮助将不胜感激,很多
谢谢,雅各布
ios - 无法在 ios 中读取 Pdf 文本
我正在尝试在我的 iOS 应用程序中提取 pdf 文档的文本,我正在使用CGPDFScanner .. 我使用了这些链接中的参考:
上述两个链接中指定的方法适用于一些简单的(Objective-c 编程)类型的 pdf。但是当我尝试从 pdf 中提取文本时,例如“ Head First ”系列中的文本,我得到了垃圾值。请建议我一些适用于所有类型 pdf 的解决方案
ios - 从 CGPDFDictionaryRef 的 "Tj/TJ" 运算符中读取准确的文本
我正在尝试从 CGPDFDictionary 的“Tj/TJ”运算符读取文本,但 TJ/Tj 运算符具有(编码)格式的文本,例如 Tj = <00><1F><05>。现在我想在 NSString 中获取这个确切的文本,即 NSString 应该包含“<00><1F><05>”。我试图从 CGPDFStringRef 中的 TJ/Tj 获取内容,但是当我试图将它放入const unsigned char*使用CGPDFStringGetBytePtr或在NSString中使用CGPDFStringCopyTextString我没有得到想要的输出。请建议我一个解决方案。
ios - iOS如何获取PDF页面中的所有单词坐标
我浏览了许多教程,通常会堆叠用户指向 pdfkitten 的链接,但是当我对其进行测试时,我对结果并不满意。所以搜索不适用于乘词等。
因此,我要查找的内容需要从 pdf 页面中获取所有单词,并在单词越过某个矩形时将其突出显示。
ios - iOS pdf 搜索高亮结果
我在这里找到了一篇很棒的帖子http://web.archive.org/web/20131122162015/http://blog.random-ideas.net/?p=184说明了如何使用扫描仪但如何突出显示结果?
ios - 扫描 PDF 时未检测到空格 - iOS (CGPDFScanner)
我正在研究 pdf 扫描,我想从 PDF 中提取文本。我正在使用 pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只得到 Tj 运算符的回调,而不是 TJ 的回调。可能是什么问题?
谢谢
ios - CGPDFScannerScan 不调用回调函数
我正在尝试通过从另一个应用程序中打开...菜单strings
从pdfFile
发送到我的应用程序中获取。我写了一个pdfscanner
我传递给我pdfPage
的扫描仪应该触发一个回调"getString"
我主要使用SWIFT但是扫描仪代码在objective-C中问题是当我从另一个应用程序向我的应用程序发送pdfDoc时,“getString”回调不开火。并且当我使用我的 macbook pro 中的目录中的 URL 将相同的文档发送到我的应用程序时,它可以工作并调用“getString”callBack。当我检查调试器时,我总是将有效的 CGPDFPageRef 传递给“extractStringsFromPDFPage:”方法。我在这两种情况下也有一个有效的 CGPDFContentStream 和 CGPDFOperatorTable
这是扫描仪的代码:
这是我从 appDelegate 将文档发送到我的应用程序的方式
我整天都在做这件事,任何帮助将不胜感激。
ios - 使用 CGPDFScanner 从 PDF 中读取文本 - 这个 PDF 文件有什么问题?
我正在尝试从此文件中提取文本:
https://www.dropbox.com/s/249snnj1nsve5ir/Lebenslauf.pdf?dl=0
使用 CGPDFScanner。我可以从包含的 PDF 字典中检测到字符编码是 WinAnsiEncoding,但字符都出现乱码。作为交叉检查,我尝试从 Mac OS X 中的 Preview 应用程序复制粘贴文本,该应用程序有效 - 因此必须以某种方式将其提取为字符串。另一方面,商业 3rd 方框架http://www.fastpdfkit.com也无法正确提取文本。
任何人都知道我错过了什么?
作为旁注,我使用https://github.com/KurtCode/PDFKitten来扫描 PDF。