问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
293 浏览

c++ - 在不使用“pdftotext”命令行工具的情况下查找 PDF 中的文本,而是使用其 API

我想在 PDF 文件中查找文本及其边界框。

似乎效果最好的工具是pdftotext(基于 XPDF)。

但是,我无法弄清楚如何在没有命令行的情况下使用此工具,也没有找到非命令行 API。我希望能够在不使用系统调用的情况下在 C++ 程序中使用它。

有谁知道如何做到这一点?

0 投票
3 回答
641 浏览

ios - 仅替换 NSString 中出现的 \n 或 \r

我正在阅读从 PDF 到 NSString 的文本。我使用下面的代码替换所有空格

但这也消除了段落空格和多行。我只想替换一次出现的 \n 或 \r 并保留段落空格或多个制表符和下一行。

0 投票
0 回答
135 浏览

php - 来自pdf非英文字符的文本

我正在尝试从这里使用 pdf2text 库:

http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

我的 pdf 包含捷克语的数据,并且该库在某些字符方面存在问题,即:

ř 替换为 Y Ž 替换为 } Kč 替换为 K\r .. 等等。

但其中一些是可以的,例如:í、ú、Ý。

替换正则表达式

[0-9a-f]

[0-9\x01-\x7F]

在图书馆里根本没有给我任何结果(老实说,我不擅长正则表达式)。用 mb_ 替换字符串函数也没有区别

示例数据:

Kupující: anna123 - 安娜托娃;Příjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; 联系方式:AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)

给我的结果:

Kupující: anna123 - 安娜托娃;PYíjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; 联系方式:AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU}ITÉ (5209214093)

谢谢

0 投票
0 回答
692 浏览

pdf - pdftotext 奇怪的字符作为输出

我正在尝试使用 pdftotext 将 .pdf 文件转换为文本,以便在 python 中进一步处理文件,但我遇到了以下问题:

它适用于某些 .pdf 文件,尽管我对某些文件的输出看起来像(这是错误的):

当我看它时,在我看来,一个 0 字符恰好代表一个字符。

所以我的问题是,有什么可能是错的?以及如何修复 pdftotext 的输出?

0 投票
5 回答
26878 浏览

pdf - 如何从命令行将 PDF 中的表格数据提取为 CSV?

我想从这里提取所有行,同时忽略列标题以及所有页标题,即Supported Devices.

生成的文件应为 CSV 电子表格格式(逗号分隔值字段)。

换句话说,我想改进上面的命令,使输出根本不会刹车。有任何想法吗?

0 投票
1 回答
1278 浏览

python - 将pdf转换为文本python错误

我想将pdf转换为指定目录中的文本

这是我试过的代码

但它得到错误

我的代码有什么问题?

0 投票
4 回答
15463 浏览

node.js - 没有操作系统依赖的nodejs中的PDF到文本提取器

有没有办法从 nodejs 中的 PDF 中提取文本而没有任何操作系统依赖项(如 pdf2text 或 windows 上的 xpdf)?我无法在 nodejs 中找到任何“本机”pdf 包。它们始终是现有操作系统命令之上的包装器/实用程序。谢谢

0 投票
0 回答
281 浏览

oracle - Convert to text a pdf which is generated from oracle reports (Oracle10gR2 AS Reports Services)

需要将pdf报告转换为文本文件。PDF 由 Oracle Reports、Oracle10gR2 AS Reports Services 生成。

任何工具或指南都将不胜感激。

笔记 :

我已经测试了以下内容,但是对于从 Oracle10gR2 AS Reports Services 生成的 PDF,生成的文本文件是无用的。

0 投票
1 回答
1927 浏览

javascript - 如何将上传的 pdf 文件传递​​给变量。(PDF.JS)

参考: http: //git.macropus.org/2011/11/pdftotext/example/

在这个项目中,开发人员将 pdf 作为输入并将其传递给变量“输入”。我想创建一个上传菜单/dropzone,以便任何人都可以上传他们的 pdf,它会自动传递给变量“input”并且可以提取文本。我能够上传文件 ,但不知道如何将该 pdf 传递给变量“输入”。

现在使用此表单将上传一个 pdf,现在我们必须将变量“input”传递给它。

0 投票
0 回答
240 浏览

python - Python,scrapy:pdf到文本转换:运行代码时没有错误,但似乎没有生成任何输出

我是 python、scrapy 和 web 抓取的新手,所以我的问题可能看起来很幼稚。对此表示歉意。

我想使用scrapy从pdf文件中提取数据。关于这个主题的stackoverflow有几个问题,我从给出的答案之一中查找并复制了以下代码。但是,我看不到任何输出。直接在代码中使用打印功能查看输出,尝试将返回值写入excel文件,但也没有显示任何输出。我也没有收到任何错误。

我正在使用的代码如下:

谁能指导我哪里出错了?

谢谢!图希纳