问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 读取填充颜色的 PDF 单元格
如何阅读 PDF 单元格颜色 ???
我正在解析并从 PDF 文件中获取文本数据,它有 Status 列,其中该列的值是彩色的。所以我想获得颜色代码或某种方式来读取状态。
我正在使用 iTextSharp dll。
提前致谢。
pdf - 从 PDF 中提取表格数据
是否有任何一致的方法可以从 PDF 文件中提取表格?有什么工具吗?
到目前为止我做了什么:
- 我已经尝试过
pdftotext
工具。它有一个转换为 HTML 布局的选项。
这有什么问题:
- HTML 输出中不保留表格信息
- 我期待
<table>
标签,但一切都在<p>
标签下。
PDF 文档中是否有任何标记来指示表格结构?像<table>
,<tr>
和<td>
在 HTML 中?
如果“是”,任何指向此的指针都会有所帮助。如果“否”,有关此事实的明确信息也很有帮助。
python - 在 Python 中阅读 PDF 并转换为 PDF 中的文本
我已经使用此代码将 pdf 转换为文本。
我已经创建了主目录并将源文件粘贴到其中。
我得到的输出是
并且没有创建带有 .txt 的文件。问题出在哪里?
unix - 将单选按钮字段的值从 PDF 导出为文本
为了对一组 PDF 文件执行一些自然语言处理操作,我需要将一些单选按钮字段的值从 OCR 扫描的 PDF 文件中自动提取为文本。使用 pdftotext 时,两个选择单选按钮(女性,男性)被导出为文本,例如:
性别
女性
男性
我需要的是某种注释,显示选择了哪些单选按钮,例如:
性别
X 女
男性
有没有 UNIX 工具可以做到这一点?我已经阅读了 pdftotext 的手册并尝试了诸如 -raw 和 -layout 之类的开关,但没有成功。
提前致谢。
TL;DR 我可以使用 pdftotext 或类似工具等 UNIX 工具从 OCR 扫描的 PDF 文档中提取单选按钮的值吗?
pdftotext - 如何获得使用 pdftotext 格式化的纯文本标记?
我pdftotext
用于从 PDF 文件中提取纯内容。
但结果没有格式(例如:段落、列表等)。如何使用pdftotext
标记从 PDF 中提取纯文本并将结果格式化?
实际上我正在尝试这个:
还有其他方法吗?
php - 仅打印 pdf 中的一半文本
我正在打印 pdf 文件中的所有文本,但它似乎只打印第一个 pdf 中的文本。同样对于第一个 pdf,它只打印其中的一小部分。我在一个循环中做,有人能说我吗我做错了什么
这是我的代码
bash - bash - 检查字符串变量是否等于换页
我是 bash 的新手,所以这可能只是简单的回答,但我的研究还没有为我找到解决方案。我正在尝试编写一个简单的 bash 脚本来检查是否需要对 pdf 进行 OCR 处理。它使用pdftotext
随 Xpdf 分发的可执行文件。如果pdftotext
不输出任何文本,则需要对 PDF 进行 OCR 处理。问题是,如果 PDF 没有经过 OCR 处理,则pdftotext
返回换页符字符(而不仅仅是空字符串)。尽我所能,我无法让 bash 将返回的字符串pdftotext
与表单提要进行比较。
这是我的代码:
现在,test.pdf
还没有经过 OCR 处理。如果我在 Python 中运行这个测试并使用repr()
I get \x0c
,换页符的字符代码。但是bash 中的echo
ing$pdf_txt
只打印空行。
想法?建议?
java - IText 像 pdftotext -layout 一样阅读 PDF?
我正在寻找最简单的方法来实现一个类似于输出的安静的 java 解决方案
在linux机器上。(当然它也应该很便宜)
我刚刚尝试了一些 IText、PDFBox 和 PDFTextStream 的代码片段。到目前为止,最准确的解决方案是 PDFTextStream,它使用 VisualOutputTarget 来获得我的文件的一个很好的表示。
所以我的列布局被认为是正确的,我可以使用它。但是IText也应该有解决方案,或者?
我发现的每一个简单的片段都会产生简单的有序字符串,这些字符串是一团糟(混乱的行/列/行)。是否有任何可能更容易并且可能不涉及自己的策略的解决方案?还是有我可以使用的开源策略?
// 我按照 mkl 的说明编写并拥有如下策略对象:
返回一个带有结果文本的字符串。*/ @Override public String getResultantText() {
如您所见,大多数与原始类相同。我刚刚添加了这个:
到 getResultantText 方法以用空格扩展间隙。但问题是:
距离似乎不准确或不准确。结果看起来像
这个:
有谁知道如何计算更好的距离或价值?我认为这是因为原始字体类型是 ArialMT 并且我的编辑器在 courier 中,但是要使用此表,建议我可以在正确的位置拆分表格以获取我的数据。由于值 usw 的浮动开始和结束,这很困难。
:-/
android - 如何将 pdf 文档显示到 TextView 中?
我想阅读 pdf 文件并在TextView
. 可能吗 ?或者只是将 pdf 显示到WebView
或 pdfViewer 中?
我想做喜欢它,
linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF
我有一个旧的 Linux 版本 (0.12.4)pdftotext
运行没有问题,但我想在 Windows 7 机器上运行它。
xpdf-2.03-bin.exe
我从http://gnuwin32.sourceforge.net/packages/xpdf.htm下载了似乎是最新版本的 Windows 安装程序。
我接受了所有安装程序的默认设置。当我在 Linux 版本正确处理的 PDF 文件上运行 Windows 7pdftotext
时,我收到以下一系列错误消息:
我对这些错误消息进行了网络搜索,但我发现与这些错误相关的问题似乎都与我遇到的问题无关。
有没有人在 Windows 7 上遇到过这个问题pdftotext
或知道如何解决?