问题标签 [xpdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 为什么从扫描的文档中可以提取文本,但不能提取图像
我之前在stackoverflow中问过类似的问题。我想问另一个相关的问题,所以我再次改写原来的问题。
我PDFBox
用来从 pdf 中提取图像和文本,可在skydrive和scribd中找到。我有以下用于提取文本的代码:
哪个正确提取了文本。但是,当我尝试使用ExtractImages
类从同一个 pdf 中提取图像时,生成的图像都是 pdf 的所有页面,而不是实际的图像(应该是 1)。
在我看来,pdf 可能是扫描文档。答案说the fact that it is scanned is your issue
。我再次尝试使用pdftotext
and pdfimages
。文本被提取,但pdfimages
输出5个图像文件,都是pdf的页面(同PDFBox
)。
据我所知,光栅图像在 pdf 中存储为 Xobjects。当我用文本编辑器打开 pdf 文件时,我看到了以下 5 行:
这可能就是为什么将 pdfPDFBox
的XPDF
5 页作为图像文件输出的原因。那么如何从pdf中提取文本?是否有技术文档提到为什么(或如何)可以从这样的文档中提取文本,其中页面“据说”嵌入为 XObjects。我可以在我的报告中引用文档。
image - pdfbox可以提取矢量图吗?
据我了解,
我几乎可以肯定第一个,不确定第二个。如果我错了,请纠正我。
假设这两件事,当乳胶文件(插入.eps图像)或word文件(包含矢量图像)转换为pdf时,图像是否会转换为光栅图像?
另外,我认为PDFBox
/xpdf
只能从 pdf 中提取光栅图像(因为它们嵌入为XObjects
),而不是矢量图像。这种理解正确吗?stackoverflow 中的这个问题是相关的,但尚未得到解答。
pdf - 解析 pdf 内容流以了解段落边界
有没有办法解析 pdf 内容流并识别段落边界?我阅读了 ISO 32000-1:2008,但无法理解 pdf 内容流是否包含任何告诉显示软件开始段落或结束段落的运算符。任何文本提取器软件都可以喜欢pdfbox
或xpdf
提供该信息吗?
pdf - 如何使用 xpdf 库从 PDF 中识别和提取矢量图形?
有没有人有示例代码演示如何使用 XPDF 库从 PDF 中提取矢量图形对象(例如表示图表和流程图的对象)?Web 上似乎没有任何可用于 xpdf 库的文档,我也找不到任何使用该库从 PDF 中提取信息的示例代码。我正在浏览 xpdf 的代码库,但任何指向其文档或示例代码的指针都会非常有帮助。
pdf - 如何识别哪些剪辑路径适用于路径或填充 PDF 矢量图形?
我正在尝试从 PDF 文件中提取矢量图形并创建相应的 SVG 文件。为此,我将 SVGOutputDev ( https://github.com/immateriel/pdf2svg/blob/master/SVGOutputDev.cc ) 与 xpdf 库一起使用。现在 SVGOutputDev 还没有实现剪辑路径提取,我正在尝试实现它。虽然我能够自己提取剪辑路径定义,但我无法确定这些定义中的哪些适用于正常笔划或填充区域。例如,请参考http://pastebin.com/jTdzv3YZ对于我从 PDF 页面中提取的 SVG,以及提取过程中看到的 PDF 图形命令序列的相应转储。从该 SVG 可以看出,有多个剪辑路径和一个矩形填充区域。即使在定义填充矩形之前定义了多个剪辑路径,也只有之前定义的圆形剪辑路径矩形定义应与矩形相关联(取决于 PDF 页面在各种 PDF 阅读器上的呈现方式,在白色背景中仅显示 2 个黑色填充的圆圈)。问题是如何知道哪些剪辑路径与 PDF 中定义的常规填充/描边区域相关联?仅供参考,我浏览了 PDF 规范文档的相关部分,但对我来说不是很清楚(“剪切路径操作可能出现在最后一个路径构造运算符之后和终止路径对象的路径绘制运算符之前。虽然剪切路径运算符出现在绘画运算符之前,它不会在它出现的位置改变剪切路径。相反,它会修改后续绘画运算符的效果“)。
lua - Awesome中缺少Xpdf pid
我正在尝试用 Awesome 做一些魔术,通常我会缺少 Xpdf pid。当我有任何其他正在测试的窗口时,client.pid 字段是正常的,并且包含窗口的 pid。但是对于 Xpdf,此字段始终设置为 0。
有没有办法在 Awesome 中获取 Xpdf 的 windows pid,所以我可以在客户端列表中找到这个窗口?
pdf - PDF 裁剪框和从 PDF 页面创建的 SVG 之间的差异
我正在尝试将 PDF 页面的背景图像提取到 SVG(使用 xpdf 库)。我面临的问题是 PDF 包含 PDF 阅读器未呈现的其他图像/图形(可能在cropbox之外),但相应的 SVG 包含这些图像/图形。我尝试将 SVG 的viewBox属性设置为对应于cropBox该 PDF 页面的边界,但生成的 SVG 仍显示一些 PDF 未呈现的图形对象。我还尝试向 SVG 添加一个剪辑路径 - 一个矩形剪辑区域(边界对应于 PDF 裁剪框),但这也没有消除一些在 PDF 中看不到的附加图形元素。关于可能是什么问题的任何想法?将 PDF 裁剪框转移到 SVG 的正确方法是什么?顺便说一句,在上述两种情况下生成的 SVG(视图框和剪切区域方法)在尺寸上都非常接近 PDF 页面的可视区域,并且仅在边缘附近看到了附加元素。从PDF获得的cropbox尺寸不应该直接在SVG中使用吗?
php - 使用 AJAX 和 PHP 输出 PDF
我的网络应用程序应该工作的方式是用户填写表单,然后 AJAX 将表单数据发送到生成 PDF 的 PHP 文件(使用 xpdf)。然后生成的 PDF 应该可以在带有 AJAX 的 HTML 页面上下载。
如果我直接在浏览器中打开 pdf.php 就可以了。但是我需要弄清楚如何将它与 AJAX 连接,以便它将生成的 PDF 发送回 AJAX,用户只需单击页面上的按钮即可下载它。
阿贾克斯:
pdf.php:
pdf - Batch file to convert all pdf to text (with xpdf)
I would like to run a batch conversion in a folder with full of pdf files. I have using xPDF and this is the command prompt for a single file:
c:\Test\pdftotext -layout firstpdftoconvert.pdf firstpdfconverted.txt
Could somebody help please to do it in one go (convert all the pdf files only) using a batch file? Thanks in advance!
php - pdf复制或使用xpdf时出现奇怪的字符
在 linux 服务器上,我使用 xpdf (whith php) 从 pdf 文件中提取信息
在某些文件上一切正常
但在其他一些人身上提取的文字很奇怪!
当我在 acrobat reader 上看到 pdf 时,我看到的是普通文本
但是当提取我得到例如:
此外,当我在计算机 Windows 8.1 上从 pdf 复制并粘贴到记事本或 notepad++ 时,我看到这些奇怪的字符
请问有什么帮助吗?问候