问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
190 浏览

c# - 读取填充颜色的 PDF 单元格

如何阅读 PDF 单元格颜色 ???

我正在解析并从 PDF 文件中获取文本数据,它有 Status 列,其中该列的值是彩色的。所以我想获得颜色代码或某种方式来读取状态。

我正在使用 iTextSharp dll。

提前致谢。

0 投票
2 回答
13327 浏览

pdf - 从 PDF 中提取表格数据

是否有任何一致的方法可以从 PDF 文件中提取表格?有什么工具吗?

到目前为止我做了什么:

  • 我已经尝试过pdftotext工具。它有一个转换为 HTML 布局的选项。

这有什么问题:

  • HTML 输出中不保留表格信息
  • 我期待<table>标签,但一切都在<p>标签下。

PDF 文档中是否有任何标记来指示表格结构?像<table>,<tr><td>在 HTML 中?

如果“是”,任何指向此的指针都会有所帮助。如果“否”,有关此事实的明确信息也很有帮助。

0 投票
3 回答
27111 浏览

python - 在 Python 中阅读 PDF 并转换为 PDF 中的文本

我已经使用此代码将 pdf 转换为文本。

我已经创建了主目录并将源文件粘贴到其中。

我得到的输出是

并且没有创建带有 .txt 的文件。问题出在哪里?

0 投票
0 回答
213 浏览

unix - 将单选按钮字段的值从 PDF 导出为文本

为了对一组 PDF 文件执行一些自然语言处理操作,我需要将一些单选按钮字段的值从 OCR 扫描的 PDF 文件中自动提取为文本。使用 pdftotext 时,两个选择单选按钮(女性,男性)被导出为文本,例如:

性别

女性

男性

我需要的是某种注释,显示选择了哪些单选按钮,例如:

性别

X 女

男性

有没有 UNIX 工具可以做到这一点?我已经阅读了 pdftotext 的手册并尝试了诸如 -raw 和 -layout 之类的开关,但没有成功。

提前致谢。

TL;DR 我可以使用 pdftotext 或类似工具等 UNIX 工具从 OCR 扫描的 PDF 文档中提取单选按钮的值吗?

0 投票
1 回答
166 浏览

pdftotext - 如何获得使用 pdftotext 格式化的纯文本标记?

pdftotext用于从 PDF 文件中提取纯内容。

但结果没有格式(例如:段落、列表等)。如何使用pdftotext标记从 PDF 中提取纯文本并将结果格式化?

实际上我正在尝试这个:

还有其他方法吗?

0 投票
0 回答
57 浏览

php - 仅打印 pdf 中的一半文本

我正在打印 pdf 文件中的所有文本,但它似乎只打印第一个 pdf 中的文本。同样对于第一个 pdf,它只打印其中的一小部分。我在一个循环中做,有人能说我吗我做错了什么

这是我的代码

0 投票
1 回答
552 浏览

bash - bash - 检查字符串变量是否等于换页

我是 bash 的新手,所以这可能只是简单的回答,但我的研究还没有为我找到解决方案。我正在尝试编写一个简单的 bash 脚本来检查是否需要对 pdf 进行 OCR 处理。它使用pdftotext随 Xpdf 分发的可执行文件。如果pdftotext不输出任何文本,则需要对 PDF 进行 OCR 处理。问题是,如果 PDF 没有经过 OCR 处理,则pdftotext返回换页符字符(而不仅仅是空字符串)。尽我所能,我无法让 bash 将返回的字符串pdftotext与表单提要进行比较。

这是我的代码:

现在,test.pdf还没有经过 OCR 处理。如果我在 Python 中运行这个测试并使用repr()I get \x0c,换页符的字符代码。但是bash 中的echoing$pdf_txt只打印空行。

想法?建议?

0 投票
1 回答
2006 浏览

java - IText 像 pdftotext -layout 一样阅读 PDF?

我正在寻找最简单的方法来实现一个类似于输出的安静的 java 解决方案

在linux机器上。(当然它也应该很便宜)

我刚刚尝试了一些 IText、PDFBox 和 PDFTextStream 的代码片段。到目前为止,最准确的解决方案是 PDFTextStream,它使用 VisualOutputTarget 来获得我的文件的一个很好的表示。

所以我的列布局被认为是正确的,我可以使用它。但是IText也应该有解决方案,或者?

我发现的每一个简单的片段都会产生简单的有序字符串,这些字符串是一团糟(混乱的行/列/行)。是否有任何可能更容易并且可能不涉及自己的策略的解决方案?还是有我可以使用的开源策略?

// 我按照 mkl 的说明编写并拥有如下策略对象:

返回一个带有结果文本的字符串。*/ @Override public String getResultantText() {

如您所见,大多数与原始类相同。我刚刚添加了这个:

到 getResultantText 方法以用空格扩展间隙。但问题是:

距离似乎不准确或不准确。结果看起来像

这个:这个:

有谁知道如何计算更好的距离或价值?我认为这是因为原始字体类型是 ArialMT 并且我的编辑器在 courier 中,但是要使用此表,建议我可以在正确的位置拆分表格以获取我的数据。由于值 usw 的浮动开始和结束,这很困难。

:-/

0 投票
1 回答
2759 浏览

android - 如何将 pdf 文档显示到 TextView 中?

我想阅读 pdf 文件并在TextView. 可能吗 ?或者只是将 pdf 显示到WebView或 pdfViewer 中?

我想做喜欢它,

0 投票
1 回答
900 浏览

linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF

我有一个旧的 Linux 版本 (0.12.4)pdftotext运行没有问题,但我想在 Windows 7 机器上运行它。

xpdf-2.03-bin.exe我从http://gnuwin32.sourceforge.net/packages/xpdf.htm下载了似乎是最新版本的 Windows 安装程序。

我接受了所有安装程序的默认设置。当我在 Linux 版本正确处理的 PDF 文件上运行 Windows 7pdftotext时,我收到以下一系列错误消息:

我对这些错误消息进行了网络搜索,但我发现与这些错误相关的问题似乎都与我遇到的问题无关。

有没有人在 Windows 7 上遇到过这个问题pdftotext或知道如何解决?