问题标签 [pdftotext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 问题

0 投票

1 回答

422 浏览

php - 如何使用 xpdf 解码 pdf 中的一些特殊字体？

我正在使用 xpdf 将 pdf 文件转换为文本。下面是用于它的代码。

Xpdf 无法将 pdf 中的一些特殊字体转换为文本。例如：无法使用 xpdf 将奇异字体转换为文本。

它们是可以将pdf中的所有字体转换为PHP文本的替代软件吗？

2012-06-15T06:45:25.367

0 投票

0 回答

1163 浏览

linux - 从 pdftotext 和 pdfimages 将 PDF 图像插入文本？

我能够安装pdftotext实用程序（我猜是 Linux 附带的）将 PDF 转换为文本，并在 Mac 上提取图像：

所以现在我有一个来自 PDF 的（令人印象深刻的格式良好的）文本，以及我必须使用 ImageMagickoutput.txt转换的一堆图像。.ppm.jpg

问题是，现在有什么方法可以在output.txt文档的正确位置插入对这些图像的引用？或者，有没有办法将这两个命令结合起来，以便同时提取文本和图像并在文本中创建指向图像的链接？想知道我是否必须自己手动编写解析代码才能将图像插入到文本中。

linux unix pdf text-extraction pdftotext

2012-07-04T00:42:18.690

0 投票

2 回答

1334 浏览

java - java - 如何在java swing中将PDF文件转换为doc文件？

如何将 pdf 文件转换为 doc 文件并在 jeditor 窗格上显示此 doc 文件。请任何人帮助我谢谢

java swing pdftotext

2012-07-26T06:35:07.670

0 投票

2 回答

687 浏览

java - 使用编码参数将 PdfToText 作为 Java 进程运行

我正在通过 Java 进程运行PdfToText ：

哪个运行没有问题。

但是，当我添加此处指定的编码参数时：

然后该过程就挂起 - 即，我正在运行的测试只是运行并运行，就好像它被卡在一个循环中一样。

编码肯定包含一个值，当生成的命令被复制并粘贴到命令终端时，pdftotext 运行没有问题。

谁能指出我在哪里出错了？

java file process processbuilder pdftotext

2012-08-18T15:32:00.803

0 投票

4 回答

2055 浏览

pdftotext - Convert many .pdf to .txt file in a directory

I have over a thousand files in a directory which I want to convert to text files. I use a code like the one below to first take out the spaces in the file names and then convert the files to text:

!/bin/bash

This code however converts a file like I love you.pdf to I_love_you.pdf.txt. I want to remove the .pdf part of the final file extension.

pdftotext

2012-08-24T07:05:34.873

0 投票

3 回答

3215 浏览

php - shell_exec() 不执行 pdftotext 命令

我安装了所需的库及其在终端中的工作，但不在我的 php 文件中。我的代码是：

/usr/local/bin/pdftotext test.pdf test.txt如果我在终端中执行此命令，它工作正常。

我也写我的代码这种类型：

在错误日志中，消息是：

php shell-exec pdftotext xpdf

user1360768

2012-09-01T08:46:42.770

0 投票

2 回答

2090 浏览

php - PHP Explode 使用 Unicode 字符作为分隔符

XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要，它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks：

这个 Unicode 符号是独立于编码的，-enc ASCII7不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是，以下功能确实有效，但一次转换整个 PDF 所需的时间是转换的两倍。

我应该如何explode(0x0c, $wholePDF)使用 Unicode 字符作为分隔符？目前，page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头（尤其是 UTF-8），但到目前为止还没有成功。

php unicode explode pdftotext xpdf

2012-09-02T09:36:06.880

0 投票

1 回答

851 浏览

php - 带有外部 URL 的 pdftotext (PHP)

我想使来自外部 URL 的 PDF 可搜索。我正在使用来自 XPDF 的 pdftotext。它适用于我的网络空间中已有的 PDF，但在尝试使用外部 PDF 时，我不断收到错误消息。具体来说，我得到：

“错误：无法打开文件'https://www.vericoa.com/sandbox/test2.pdf'”

这是我的代码

甚至可以从外部 PDF 源中提取文本吗？有没有其他选择（我花了最后几个小时搜索，但一无所获）。

提前感谢马蒂亚斯

php shell-exec pdftotext

2012-10-21T16:37:00.227

0 投票

1 回答

764 浏览

python - 如何处理什么应该是有效的 utf-8？我究竟做错了什么？

我正在使用pdftotext选项“-enc utf-8 -htmlmeta -raw”并将其传递给解析输出的python脚本。（即使您不熟悉 pdftotext，也请继续阅读，因为这可能不相关。）

对于我们正在处理的一些 pdf，pdftotext 正在输出如下所示的元数据：

在python中，我正在这样做（基本上）：

上述元数据中的字符串在content哪里。<FE><FF>Python引发了一个异常：

在这一点上，我不确定问题是 PDF 本身，还是 pdftotext 的输出，还是 Python 解释 utf-8 的方式。

我用谷歌搜索并没有发现任何结论。

本质上，我希望pdftotext -enc utf-8只输出有效的utf-8。我希望 Python 在解码时能够理解如何处理该 utf-8。我缺少其中的某些部分吗？

我将不胜感激任何帮助理解为什么会发生这种情况，并帮助解决方案。

谢谢！

python unicode utf-8 pdftotext

2012-11-29T03:26:29.427

0 投票

3 回答

8500 浏览

java - itext java pdf到文本创建

我使用 itext 将 pdf 转换为文本文件，它实际上效果很好，但对于某些单词，它会执行以下操作：例如，在 pdf 中有类似“提出主要思想”的短语，但 itext 创建了一个类似“presentthemainideas”的输出。无论如何要纠正这种行为？

java itext pdftotext

2012-11-30T11:31:14.040

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftotext]

!/bin/bash

Reference