问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
422 浏览

php - 如何使用 xpdf 解码 pdf 中的一些特殊字体?

我正在使用 xpdf 将 pdf 文件转换为文本。下面是用于它的代码。

Xpdf 无法将 pdf 中的一些特殊字体转换为文本。例如:无法使用 xpdf 将奇异字体转换为文本。

它们是可以将pdf中的所有字体转换为PHP文本的替代软件吗?

0 投票
0 回答
1163 浏览

linux - 从 pdftotext 和 pdfimages 将 PDF 图像插入文本?

我能够安装pdftotext实用程序(我猜是 Linux 附带的)将 PDF 转换为文本,并在 Mac 上提取图像:

所以现在我有一个来自 PDF 的(令人印象深刻的格式良好的)文本,以及我必须使用 ImageMagickoutput.txt转换的一堆图像。.ppm.jpg

问题是,现在有什么方法可以在output.txt文档的正确位置插入对这些图像的引用?或者,有没有办法将这两个命令结合起来,以便同时提取文本和图像并在文本中创建指向图像的链接?想知道我是否必须自己手动编写解析代码才能将图像插入到文本中。

0 投票
2 回答
1334 浏览

java - java - 如何在java swing中将PDF文件转换为doc文件?

如何将 pdf 文件转换为 doc 文件并在 jeditor 窗格上显示此 doc 文件。请任何人帮助我谢谢

0 投票
2 回答
687 浏览

java - 使用编码参数将 PdfToText 作为 Java 进程运行

我正在通过 Java 进程运行PdfToText :

哪个运行没有问题。

但是,当我添加此处指定的编码参数时:

然后该过程就挂起 - 即,我正在运行的测试只是运行并运行,就好像它被卡在一个循环中一样。

编码肯定包含一个值,当生成的命令被复制并粘贴到命令终端时,pdftotext 运行没有问题。

谁能指出我在哪里出错了?

0 投票
4 回答
2055 浏览

pdftotext - Convert many .pdf to .txt file in a directory

I have over a thousand files in a directory which I want to convert to text files. I use a code like the one below to first take out the spaces in the file names and then convert the files to text:

!/bin/bash

This code however converts a file like I love you.pdf to I_love_you.pdf.txt. I want to remove the .pdf part of the final file extension.

0 投票
3 回答
3215 浏览

php - shell_exec() 不执行 pdftotext 命令

我安装了所需的库及其在终端中的工作,但不在我的 php 文件中。我的代码是:

/usr/local/bin/pdftotext test.pdf test.txt如果我在终端中执行此命令,它工作正常。

我也写我的代码这种类型:

在错误日志中,消息是:

0 投票
2 回答
2090 浏览

php - PHP Explode 使用 Unicode 字符作为分隔符

XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要,它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks:

这个 Unicode 符号是独立于编码的,-enc ASCII7不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是,以下功能确实有效,但一次转换整个 PDF 所需的时间是转换的两倍。

我应该如何explode(0x0c, $wholePDF)使用 Unicode 字符作为分隔符?目前,page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头(尤其是 UTF-8),但到目前为止还没有成功。

0 投票
1 回答
851 浏览

php - 带有外部 URL 的 pdftotext (PHP)

我想使来自外部 URL 的 PDF 可搜索。我正在使用来自 XPDF 的 pdftotext。它适用于我的网络空间中已有的 PDF,但在尝试使用外部 PDF 时,我不断收到错误消息。具体来说,我得到:

“错误:无法打开文件'https://www.vericoa.com/sandbox/test2.pdf'”

这是我的代码

甚至可以从外部 PDF 源中提取文本吗?有没有其他选择(我花了最后几个小时搜索,但一无所获)。

提前感谢马蒂亚斯

0 投票
1 回答
764 浏览

python - 如何处理什么应该是有效的 utf-8?我究竟做错了什么?

我正在使用pdftotext选项“-enc utf-8 -htmlmeta -raw”并将其传递给解析输出的python脚本。(即使您不熟悉 pdftotext,也请继续阅读,因为这可能不相关。)

对于我们正在处理的一些 pdf,pdftotext 正在输出如下所示的元数据:

在python中,我正在这样做(基本上):

上述元数据中的字符串在content哪里。<FE><FF>Python引发了一个异常:

在这一点上,我不确定问题是 PDF 本身,还是 pdftotext 的输出,还是 Python 解释 utf-8 的方式。

我用谷歌搜索并没有发现任何结论。

本质上,我希望pdftotext -enc utf-8只输出有效utf-8。我希望 Python 在解码时能够理解如何处理该 utf-8。我缺少其中的某些部分吗?

我将不胜感激任何帮助理解为什么会发生这种情况,并帮助解决方案。

谢谢!

0 投票
3 回答
8500 浏览

java - itext java pdf到文本创建

我使用 itext 将 pdf 转换为文本文件,它实际上效果很好,但对于某些单词,它会执行以下操作:例如,在 pdf 中有类似“提出主要思想”的短语,但 itext 创建了一个类似“presentthemainideas”的输出。无论如何要纠正这种行为?