问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何使用 xpdf 解码 pdf 中的一些特殊字体?
我正在使用 xpdf 将 pdf 文件转换为文本。下面是用于它的代码。
Xpdf 无法将 pdf 中的一些特殊字体转换为文本。例如:无法使用 xpdf 将奇异字体转换为文本。
它们是可以将pdf中的所有字体转换为PHP文本的替代软件吗?
linux - 从 pdftotext 和 pdfimages 将 PDF 图像插入文本?
我能够安装pdftotext
实用程序(我猜是 Linux 附带的)将 PDF 转换为文本,并在 Mac 上提取图像:
所以现在我有一个来自 PDF 的(令人印象深刻的格式良好的)文本,以及我必须使用 ImageMagickoutput.txt
转换的一堆图像。.ppm
.jpg
问题是,现在有什么方法可以在output.txt
文档的正确位置插入对这些图像的引用?或者,有没有办法将这两个命令结合起来,以便同时提取文本和图像并在文本中创建指向图像的链接?想知道我是否必须自己手动编写解析代码才能将图像插入到文本中。
java - java - 如何在java swing中将PDF文件转换为doc文件?
如何将 pdf 文件转换为 doc 文件并在 jeditor 窗格上显示此 doc 文件。请任何人帮助我谢谢
java - 使用编码参数将 PdfToText 作为 Java 进程运行
我正在通过 Java 进程运行PdfToText :
哪个运行没有问题。
但是,当我添加此处指定的编码参数时:
然后该过程就挂起 - 即,我正在运行的测试只是运行并运行,就好像它被卡在一个循环中一样。
编码肯定包含一个值,当生成的命令被复制并粘贴到命令终端时,pdftotext 运行没有问题。
谁能指出我在哪里出错了?
pdftotext - Convert many .pdf to .txt file in a directory
I have over a thousand files in a directory which I want to convert to text files. I use a code like the one below to first take out the spaces in the file names and then convert the files to text:
!/bin/bash
This code however converts a file like I love you.pdf to I_love_you.pdf.txt. I want to remove the .pdf part of the final file extension.
php - shell_exec() 不执行 pdftotext 命令
我安装了所需的库及其在终端中的工作,但不在我的 php 文件中。我的代码是:
/usr/local/bin/pdftotext test.pdf test.txt
如果我在终端中执行此命令,它工作正常。
我也写我的代码这种类型:
在错误日志中,消息是:
php - PHP Explode 使用 Unicode 字符作为分隔符
XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要,它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks:
这个 Unicode 符号是独立于编码的,-enc ASCII7
不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是,以下功能确实有效,但一次转换整个 PDF 所需的时间是转换的两倍。
我应该如何explode(0x0c, $wholePDF)
使用 Unicode 字符作为分隔符?目前,page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头(尤其是 UTF-8),但到目前为止还没有成功。
php - 带有外部 URL 的 pdftotext (PHP)
我想使来自外部 URL 的 PDF 可搜索。我正在使用来自 XPDF 的 pdftotext。它适用于我的网络空间中已有的 PDF,但在尝试使用外部 PDF 时,我不断收到错误消息。具体来说,我得到:
“错误:无法打开文件'https://www.vericoa.com/sandbox/test2.pdf'”
这是我的代码
甚至可以从外部 PDF 源中提取文本吗?有没有其他选择(我花了最后几个小时搜索,但一无所获)。
提前感谢马蒂亚斯
python - 如何处理什么应该是有效的 utf-8?我究竟做错了什么?
我正在使用pdftotext
选项“-enc utf-8 -htmlmeta -raw”并将其传递给解析输出的python脚本。(即使您不熟悉 pdftotext,也请继续阅读,因为这可能不相关。)
对于我们正在处理的一些 pdf,pdftotext 正在输出如下所示的元数据:
在python中,我正在这样做(基本上):
上述元数据中的字符串在content
哪里。<FE><FF>
Python引发了一个异常:
在这一点上,我不确定问题是 PDF 本身,还是 pdftotext 的输出,还是 Python 解释 utf-8 的方式。
我用谷歌搜索并没有发现任何结论。
本质上,我希望pdftotext -enc utf-8
只输出有效的utf-8。我希望 Python 在解码时能够理解如何处理该 utf-8。我缺少其中的某些部分吗?
我将不胜感激任何帮助理解为什么会发生这种情况,并帮助解决方案。
谢谢!
java - itext java pdf到文本创建
我使用 itext 将 pdf 转换为文本文件,它实际上效果很好,但对于某些单词,它会执行以下操作:例如,在 pdf 中有类似“提出主要思想”的短语,但 itext 创建了一个类似“presentthemainideas”的输出。无论如何要纠正这种行为?