问题标签 [xpdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 R 中使用 pdftools 将大量 PDF 文件转换为 TXT 文件?
我正在尝试将大约 600 个充满表格的 pdf 文件提取为文本格式,以便进行一些数据探索。看起来 pdftool 是我完成工作的最佳选择,但帮助文件很简短。我找到的最接近的教程使用 xpdf。有没有办法使用 pdftools 做到这一点?
r - 正方体“pixCreateNoInit 中的错误:pix_malloc 数据失败”
但是,由于xPDF可以将 PDF 转换为 PNG,因此我跳过了 ImageMagick 转换步骤以及函数(i)过程的错误逻辑,因为 pdftopng 需要根名称,在这种情况下为“ocrbook-000001.png”,并在查找原始 PDF 文件名的 PNG 时引发错误。
我现在的问题是让 Tesseract 对我的 PNG 文件做任何事情。我得到错误:
这是我的代码:
pdf - Type 3 字体转换
我正在将 Type3 字形字体从 Pdf 解析为 postscript。输入文件具有应用了数据流 flate 解码过滤器的内联图像。过滤器具有预测器 15。任何人都可以帮助我将图像流从 pdf 格式转换为 postscript。这就是在 pdf 中给出输入流的方式
这就是我试图在 Postscript 的输出中写的内容
pdf - 如何在 postscript 中创建类型 3 字形
我正在使用 postscript 中的 type 3 字体。我正在尝试调试此文件并且出现错误。ioerror 图像掩码。pdf 文件中的输入字形如下所示。我已将二进制数据转换为 ascii hex,因为我发现无法按原样使用它。
下面是用于进一步演示的后记和 pdf 文件链接。 https://ufile.io/zmmjv https://ufile.io/2r2eb
ubuntu-16.04 - pdftoppm 只转换 pdf 的第一页
我需要将 pdf 转换为 pgm,并且当我运行(示例)命令时
我将 pdf 的第一页作为输出。即使我清楚地将第一页指定为第 5 页。我没有指定 -singlefile 参数,这可能会导致这种情况。即使我指定一个页面,比如
,第一页被转换。任何指针?
debugging - 使用 adobe 蒸馏时发生错误。而不是在ghostscript中
我有一个 postscript 文件,当我用 ghostscript 打开它时,它显示输出没有错误。但是当我尝试用 adobe 提取它时,它会因以下错误而停止。
%%[错误:未定义;违规命令:show;ErrorInfo: MetricsCount --nostringval-- ]%% 我已经通过从文件中删除文本来缩短文件,现在输出中只有两个单词。
text-extraction - 如何获取字符/单词/行/块坐标
我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标?
我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。
text-extraction - pdftotext 获取字体信息(字体系列、样式、大小)
我正在使用“ pdftotext -bbox file.pdf
”将pdf
文件转换为HTML
.
这是输出中的示例行:
有没有办法获取每个单词的字体信息,例如:
- 字体系列,例如 Verdana
- 样式,即无、粗体、斜体
- 大小,例如字体大小 9
我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。
.net - xpdf 可以接受变量作为 Powershell 中的路径参数吗?
我收到一个错误:
使用以下代码行:
我怀疑这是一个错误,因为我正在运行的可执行文件不接受 Powershell 变量作为参数,但我不确定。如果是这种情况,是否有解决方法?
背景资料:
我正在编写一个脚本,它接受用户输入的 pdf 文件位置(通过文件打开对话框)并将结果存储在一个变量中,希望用作 xpdf 的 pdftotext.exe 的路径参数。