问题标签 [cgpdfscanner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - CGPDFStringGetBytePtr returning incorrect string while scanning pdf
I have one PDF and I am trying to scan PDF using CGPDFScanner. While scanning the pdf, when the word "file" is encountered, the CGPDFStringGetBytePtr API returns "\x02le". PDF is having Type1 font and no ToUnicodeMapping(CMap). Encoding dictionary is not present in the PDF hence using NSUTF8String encoding. However I have tried with all NSMacOSRomanStringEncoding, NSASCIIStringEncoding but had no luck. What can be the problem?
Thanks.
ios - iOS - 区分背景文本(水印)和 PDF 中的真实文本
我有一个背景有水印的pdf 。当开始扫描以在背景中突出显示带有水印或注释的任何单词时,将被选中,因为它首先在触摸区域中找到。
我正在使用 CGPDFScanner 来扫描文本。
我的问题是如何检测扫描的文本是背景文本还是 PDF 中的真实文本?如何区分标准文本和注释文本?
谢谢。
ios - CGPDFScanner - 扫描时的 \x15 字符
我正在尝试提取pdf中第 5 页的文本。
pdf 的字体 YLJAAA+CMSY10 没有映射 (CMap) 甚至没有编码(默认编码或 /Differences)。
提取文本时,字符串 "tetex package" CGPDFScanner 返回多次遇到的 "\x15" 字符。
当遇到这个字符时,当前字体是上面提到的字体,它没有任何东西可以从 pdf 字符串中提取文本。这个 \x15 字符是什么?
谢谢。
parsing - 解析 PDF 字体运算符丢失
我正在解析 PDF 文件,似乎缺少 Tf 运算符。我可以看到,在Acrobat reader或Preview等 PDF 阅读器上,字体发生了变化。但是在解析过程中,我没有 Tf 运算符。我仍然有标记前一个文本块结束的 ET 运算符和新文本块开始的 BT 运算符。我也有文字显示运营商 Tj & co。
需要明确的是,我确实有 Tf 运算符,但它应该在一个地方,但不是。
PDF参考状态:
字体或大小都没有初始值;在显示任何文本之前,必须使用 Tf 明确指定它们。
我不明白为什么如果我没有 Tf 运算符,那些读者如何正确呈现文本?
有人知道问题可能来自哪里吗?
swift - 快速获取pdf文本
我尝试从 pdf 页面获取文本但没有成功。
我尝试:
我尝试'ET','BT',......回调被触发,但val总是'nil'我只想获取页面上的所有文本。
谢谢...
ios - 在swift 3的函数中将UnsafeMutablePointer传递给Ref Object
我正在快速开发一个 pdf 解析器,所以我偶然发现了函数 CGPDFScannerPopString,它需要一个 CGPDFScannerRef 和一个 UnsafeMutablePointer?
Objective C 代码如下所示:
我如何在 swift 3 中写这个?