问题标签 [pdftotext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 问题

0 投票

0 回答

190 浏览

c# - 读取填充颜色的 PDF 单元格

如何阅读 PDF 单元格颜色 ???

我正在解析并从 PDF 文件中获取文本数据，它有 Status 列，其中该列的值是彩色的。所以我想获得颜色代码或某种方式来读取状态。

我正在使用 iTextSharp dll。

提前致谢。

c#.net itextsharp pdftotext

2014-04-16T13:48:49.347

0 投票

2 回答

13327 浏览

pdf - 从 PDF 中提取表格数据

是否有任何一致的方法可以从 PDF 文件中提取表格？有什么工具吗？

到目前为止我做了什么：

我已经尝试过pdftotext工具。它有一个转换为 HTML 布局的选项。

这有什么问题：

HTML 输出中不保留表格信息
我期待<table>标签，但一切都在<p>标签下。

PDF 文档中是否有任何标记来指示表格结构？像<table>,<tr>和<td>在 HTML 中？

如果“是”，任何指向此的指针都会有所帮助。如果“否”，有关此事实的明确信息也很有帮助。

pdf pdftotext pdf-to-html

2014-05-06T12:56:21.080

0 投票

3 回答

27111 浏览

python - 在 Python 中阅读 PDF 并转换为 PDF 中的文本

我已经使用此代码将 pdf 转换为文本。

我已经创建了主目录并将源文件粘贴到其中。

我得到的输出是

并且没有创建带有 .txt 的文件。问题出在哪里？

python pdftotext

2014-05-23T04:55:03.413

0 投票

0 回答

213 浏览

unix - 将单选按钮字段的值从 PDF 导出为文本

为了对一组 PDF 文件执行一些自然语言处理操作，我需要将一些单选按钮字段的值从 OCR 扫描的 PDF 文件中自动提取为文本。使用 pdftotext 时，两个选择单选按钮（女性，男性）被导出为文本，例如：

性别

女性

男性

我需要的是某种注释，显示选择了哪些单选按钮，例如：

性别

X 女

男性

有没有 UNIX 工具可以做到这一点？我已经阅读了 pdftotext 的手册并尝试了诸如 -raw 和 -layout 之类的开关，但没有成功。

提前致谢。

TL;DR 我可以使用 pdftotext 或类似工具等 UNIX 工具从 OCR 扫描的 PDF 文档中提取单选按钮的值吗？

unix pdf formatting pdftotext

2014-07-09T11:11:32.960

0 投票

1 回答

166 浏览

pdftotext - 如何获得使用 pdftotext 格式化的纯文本标记？

我pdftotext用于从 PDF 文件中提取纯内容。

但结果没有格式（例如：段落、列表等）。如何使用pdftotext标记从 PDF 中提取纯文本并将结果格式化？

实际上我正在尝试这个：

还有其他方法吗？

pdftotext

2014-07-09T17:30:05.460

0 投票

0 回答

57 浏览

php - 仅打印 pdf 中的一半文本

我正在打印 pdf 文件中的所有文本，但它似乎只打印第一个 pdf 中的文本。同样对于第一个 pdf，它只打印其中的一小部分。我在一个循环中做，有人能说我吗我做错了什么

这是我的代码

php pdftotext

2014-07-17T08:39:17.787

0 投票

1 回答

552 浏览

bash - bash - 检查字符串变量是否等于换页

我是 bash 的新手，所以这可能只是简单的回答，但我的研究还没有为我找到解决方案。我正在尝试编写一个简单的 bash 脚本来检查是否需要对 pdf 进行 OCR 处理。它使用pdftotext随 Xpdf 分发的可执行文件。如果pdftotext不输出任何文本，则需要对 PDF 进行 OCR 处理。问题是，如果 PDF 没有经过 OCR 处理，则pdftotext返回换页符字符（而不仅仅是空字符串）。尽我所能，我无法让 bash 将返回的字符串pdftotext与表单提要进行比较。

这是我的代码：

现在，test.pdf还没有经过 OCR 处理。如果我在 Python 中运行这个测试并使用repr()I get \x0c，换页符的字符代码。但是bash 中的echoing$pdf_txt只打印空行。

想法？建议？

bash pdftotext

2014-07-21T04:02:13.977

0 投票

1 回答

2006 浏览

java - IText 像 pdftotext -layout 一样阅读 PDF？

我正在寻找最简单的方法来实现一个类似于输出的安静的 java 解决方案

在linux机器上。（当然它也应该很便宜）

我刚刚尝试了一些 IText、PDFBox 和 PDFTextStream 的代码片段。到目前为止，最准确的解决方案是 PDFTextStream，它使用 VisualOutputTarget 来获得我的文件的一个很好的表示。

所以我的列布局被认为是正确的，我可以使用它。但是IText也应该有解决方案，或者？

我发现的每一个简单的片段都会产生简单的有序字符串，这些字符串是一团糟（混乱的行/列/行）。是否有任何可能更容易并且可能不涉及自己的策略的解决方案？还是有我可以使用的开源策略？

// 我按照 mkl 的说明编写并拥有如下策略对象：

返回一个带有结果文本的字符串。*/ @Override public String getResultantText() {

如您所见，大多数与原始类相同。我刚刚添加了这个：

到 getResultantText 方法以用空格扩展间隙。但问题是：

距离似乎不准确或不准确。结果看起来像

这个：

有谁知道如何计算更好的距离或价值？我认为这是因为原始字体类型是 ArialMT 并且我的编辑器在 courier 中，但是要使用此表，建议我可以在正确的位置拆分表格以获取我的数据。由于值 usw 的浮动开始和结束，这很困难。

：-/

java pdf itext pdftotext

2014-07-22T12:44:13.093

0 投票

1 回答

2759 浏览

android - 如何将 pdf 文档显示到 TextView 中？

我想阅读 pdf 文件并在TextView. 可能吗？或者只是将 pdf 显示到WebView或 pdfViewer 中？

我想做喜欢它，

android pdf-reader pdftotext

2014-09-09T07:52:08.930

0 投票

1 回答

900 浏览

linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF

我有一个旧的 Linux 版本 (0.12.4)pdftotext运行没有问题，但我想在 Windows 7 机器上运行它。

xpdf-2.03-bin.exe我从http://gnuwin32.sourceforge.net/packages/xpdf.htm下载了似乎是最新版本的 Windows 安装程序。

我接受了所有安装程序的默认设置。当我在 Linux 版本正确处理的 PDF 文件上运行 Windows 7pdftotext时，我收到以下一系列错误消息：

我对这些错误消息进行了网络搜索，但我发现与这些错误相关的问题似乎都与我遇到的问题无关。

有没有人在 Windows 7 上遇到过这个问题pdftotext或知道如何解决？

linux windows-7 pdftotext poppler xpdf

2014-10-10T18:46:25.543

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftotext]

Reference