问题标签 [xpdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
300 浏览

import - 将 Xpdf 导入 Visual Studio

我一直在试图弄清楚如何将源代码从 xpdf ( http://www.foolabs.com/xpdf/download.html ) 导入到 Visual Studio Express 2013 中,以便我可以利用 pdftotext 函数。有人可以帮我完成所需的步骤吗?

0 投票
1 回答
1262 浏览

python - pdftoppm“无显示字体”错误

我正在使用 pdftoppm 从 pdf 文件中提取页面,因此以后可以使用 ImageMagick 将生成的 pbm 文件转换为多页 tiff。我已经使用以下代码使其工作:

但是,对于每个项目,即使我有 -q 标志来防止它们被写入输出,我也会不断收到这些错误:

错误:“符号”没有显示字体

错误:“Zapf Dingbats”没有显示字体

这是程序的已知错误,还是我应该采取其他措施来防止打印这些错误,因为它们会减慢我的程序速度?

0 投票
0 回答
122 浏览

php - 如何在带有 Zpanel 的 VPS 上使用 XPDF?

我正在尝试制作一个网页以使用 xpdf 将 pdf 转换为文本文件。
下面是使用 xampp 在 Windows 上执行此操作的 php 代码。

现在我想在 linux VPS 上运行它。
我有一个具有 SSH 访问权限的 Cent OS VPS。我已经安装了 zpanel、xpdf(使用 yum install xpdf)。
现在我想,当我在浏览器中打开此 URL“www.website.com/convert.php”时,public_html 文件夹中的 test.pdf 文件应转换为同一文件夹中的 test.txt。

那么,我应该在 convert.php 中编写什么代码?

0 投票
1 回答
900 浏览

linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF

我有一个旧的 Linux 版本 (0.12.4)pdftotext运行没有问题,但我想在 Windows 7 机器上运行它。

xpdf-2.03-bin.exe我从http://gnuwin32.sourceforge.net/packages/xpdf.htm下载了似乎是最新版本的 Windows 安装程序。

我接受了所有安装程序的默认设置。当我在 Linux 版本正确处理的 PDF 文件上运行 Windows 7pdftotext时,我收到以下一系列错误消息:

我对这些错误消息进行了网络搜索,但我发现与这些错误相关的问题似乎都与我遇到的问题无关。

有没有人在 Windows 7 上遇到过这个问题pdftotext或知道如何解决?

0 投票
2 回答
2054 浏览

image - PDF:提取的图像被切片/平铺

到目前为止,使用pdfimagesmupdf/的图像提取工作正常。mutool

使用 FreePDF 生成的 PDF 中的图像总是被切片,因此一个图像会产生多个图像文件。

有什么技巧可以避免这种情况吗?我怎样才能使用 的结果pdfshow?将 PDF 转换为 PNG 或 JPEG 后,是否有坐标可以知道剪切/裁剪图像的位置、高度和宽度?

0 投票
2 回答
1103 浏览

xml - 如何将pdf文档转换为xml并获取包含表格数据的部分。

有一个pdf文档,我想把它转换成xml或者html

由于pdf文档包含一些表格,当它转换为xmlhtml时,我不知道哪个是表格数据,哪个是文本。

我想获取表数据来存储数据库。

xpdfmupdf可以做到吗?

谢谢。

0 投票
1 回答
8732 浏览

r - 在 R 中使用 readPDF(tm 包)

我是 R 的初学者,在使用该tm软件包时遇到了一些麻烦。我需要从第 55 页到第 300 页中提取特定数据,并认为 R 可能是这样做的好方法。(如果有人有更好的主意,请告诉我!)我做了一些搜索,在安装了tm包和xpdf包之后,我尝试阅读这个并尝试了 zx8754 的解决方案,但没有成功。我怀疑它与 readPDF 命令有关——我得到以下信息:

readPDF(PdftotextOptions = "-layout") 中的错误:未使用的参数 (PdftotextOptions = "-layout")

我认为这与尝试将tm包和xpdf包一起使用有关,所以我阅读了 Tony Breyal 的解决方案(我不能发布超过 2 个链接),将 pdfinfo 和 pdftotext 作为环境变量(我在 Win 8 ) 并重新启动。我确定我遗漏了一些东西——现在我在 R 的工作目录中有 pdftotext.exe。任何人都可以帮我正确配置它,以便 tm 包正确调用 xpdf 文件并像它应该的那样 readPDF 函数?

再说一次,我对此很陌生,所以如果我离开了,请道歉。所有帮助将不胜感激。

提前致谢,

贾斯汀

0 投票
1 回答
1492 浏览

unix - PDFtoTEXT 未完全转换 UTF-8 编码文本,尤其是重音字符

我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体(具体为 Mangal)和英语。

100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现,要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码:

PDF 使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal,CID TrueType,是的,是的,是的

Mangal TrueType,不,不,不

Helvetica-Bold Type 1,不,不,不

CODUBM+Mangal-Bold,CID TrueType,是的,是的,是的

Mangal-Bold,TrueType,不,不,不

Times-Roman, Type 1 no, no, no

Helvetica,类型 1,不,不,不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:

我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获?非常感谢您的投入!

0 投票
1 回答
695 浏览

pdf - 如何在xpdf中删除pdf的页眉和页脚

正如标题所说,我在xpdf(pdftotext)中获取PDF的数据,但它包含页眉和页脚。现在我想删除页眉和页脚。如何制作?谢谢你。

0 投票
0 回答
370 浏览

php - 在 Web 服务器上安装 shell 命令

我在 linux 服务器上运行一个网站,并尝试在终端中安装 pdfinfo(xpdf包的一部分)。我已登录 SSH shell 并解压缩了 .tar 文件。它里面是 pdfinfo 可执行文件,但是我似乎无法对它做任何事情或测试它是否有效。我需要安装它,以便我可以从 php 调用来给我 pdf 的尺寸(a la PHP Get height and width in Pdf file proprieties

我已经能够在运行 WAMP 的 Windows 机器上本地安装 pdfinfo,但是我无法让它在服务器上运行。

请真的把它变小,并像在和孩子说话一样说出你的答案。我真的没有我的驾驶室与这个......