问题标签 [xpdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
141 浏览

makefile - 为 pdftohtml 制作链接器会导致编译器错误

当我运行make编译 xpdf 时出现以下错误。这似乎与未检测到纸张尺寸有关。我以前没有见过这种错误,通常是导致编译器抱怨的数学库。有没有人遇到过这种错误?

cmake 命令的终端输出为:

0 投票
0 回答
192 浏览

laravel - 如何在 Laravel 中生成与 xpdf 生成的 pdf 相同的 pdftotext?

我正在使用Laravel 的 spatie 库将 pdf 转换为文本。我正在使用 Xpdf。这是我转换 pdftotext 的代码。

正如您在上面的代码中看到的,用户将上传一些 pdf 文件,然后我将此文件转换为text(). 我->setOptions(['layout','layout'])用来显示我的文本格式与 PDF 文件相同。

标准 1:

如果我将 word 文件用作 pdf,那么setOptions效果很好。它向我展示了它在 pdf 中的相同打印。

标准 2:

如果我在其中使用带有 HTML 代码的 Laravel 刀片文件。 setOptions在这种情况下不起作用。我不知道如何解决这个问题。

是否有任何其他选项可以text()像 pdf 一样设置。我需要这个,因为在转换 pdftotext 之后,我必须从中收集相同的信息并存储在数据库中。

0 投票
1 回答
125 浏览

r - 尝试在 R 中抓取 PDF,我的代码只会抓取 9 页中的 6 页,我不知道为什么,我的代码中是否遗漏了什么?

我试图在 R 中抓取几个 PDF,PDF1 有 9 页,PDF2 有 12 页。当我运行下面的代码时,它会刮掉两个 PDF,但只能刮到第 6 页,之后什么也没有。是否有一个原因?我的代码中缺少什么?

您可以在以下网址找到 PDF:https ://www.scribd.com/document/396797318/123

0 投票
1 回答
940 浏览

php - 在 PHP 中将 PDF 转换为 HTML,类似于 DocuSign

我们正在开发一个需要将 PDF 文件转换为 HTML 的网站,因为某些 PDF 有一个表格(不一定是可填写的 PDF,这些 PDF 是打印出来填写的)。

所以我们希望它通过我们的网站填写,而不是打印文件并用笔填写。我们正在实现无纸化。

DocuSign 提供了这些,您可以在其中上传 PDF,然后您可以将其自定义为具有文本框、复选框。所以我们有点使用 DocuSign 作为参考,但仍然没有弄清楚他们是如何做到的(几乎完美地将 PDF 转换为 HTML,反之亦然)。

到目前为止,我已经尝试了几种将 PDF 转换为 HTML 的第三方软件。我试过 XPDF、Poppler 和 ImageMagick。

ImageMagick 将 PDF 转换为不适合的图像,因为这些图像在转换回 PDF 进行打印时尺寸较大。

Poppler 是基于我的研究的一个 fork XPDF,我在使用 XPDF 后尝试过它是否更好,它基本上可以做 XPDF 的工作,但它会将 PDF 转换为在转换为 HTML 时在 CSS 上具有更大的像素。这很好,但它失去了字体系列。

XPDF 将 PDF 转换为 HTML 但像素较小,因此当我将其转换回 PDF 时,它不适合整个页面,我仍然需要手动调整所有 CSS 以适应它。

所以在使用了这些 3rd 方软件后,我使用 MPDF 将 HTML 文件转换回 PDF,转换后的文件有很多不一致之处。文本未正确对齐。它基本上与原始PDF不同。

任何帮助将不胜感激谢谢!

0 投票
1 回答
491 浏览

macos - 带有来自不同目录的语言包调用的 xpdf (pdftotext)

我正在 macOS 终端上试验 xpdf (pdftotext)。我使用一种语言包(日语)。如果我这样调用可执行文件(从 lib 目录),一切正常:

和我的数据结构

和以下编辑的 xpdfrc 配置文件:

我遇到的问题是从不同的目录调用“pdftoext”,例如从“文件”。在这种情况下,看不到配置文件指向的文件。

我收到以下错误:

而且生成的文件是垃圾。

关于如何更改配置文件的任何想法?

0 投票
1 回答
167 浏览

ghostscript - GhostScript和Xpdf在将pdf转换为png上有什么区别

在我的项目中,我使用 GhostScript 将 pdf 文件转换为 png 图像。问题是它无法正确处理未嵌入pdf文件的字体,因此输出错误。使用 pdftoppm(一个 xpdf 工具)时,问题已得到解决。所以我想知道ghostscript和xpdf在转换阶段有什么区别?为什么 GhostScript 需要使用字体而 Xpdf 不需要?

0 投票
0 回答
156 浏览

javascript - 用于firebase功能的pdftotext?

我需要从 pdf 中提取文本,为此我在本地系统上使用 pdftotext(poppler)(在 ubuntu 18.4 LTS 上)现在我想将该函数部署到 Firebase Functions,但默认情况下 firebase 函数没有它。

是否有任何可移植版本的pdftotext(poppler)作为独立可执行文件,所以我可以spawn在firebase函数中使用它?

不能使用 xpdf,因为它不允许提取文本,但 poppler 可以。

是否有来自 poppler 的 pdftotext 的便携式(没有任何依赖关系)版本?

0 投票
1 回答
98 浏览

python - 路径应该是字符串、字节或 os.PathLike,而不是 InMemoryUploadedFile

在 django 中,我得到了用户上传的文件input_pdf = request.FILES['pdf'],我想用pdftextract库提取字段文本,pdf = XPdf(input_pdf)但它给出了一个错误:TypeError: _getfullpathname: path should be string, bytes or os.PathLike, not InMemoryUploadedFile. 我应该如何获取用户上传文件的路径或如何使用pdftextract数据类型InMemoryUploadedFile
我必须说,对于本地文件pdftextract,使用以下代码提取文本: