问题标签 [pdftextstream]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6 问题

0 投票

1 回答

1331 浏览

java - 如何使用 Java 使用 PDFExtStream 从 PDF 中提取文本

未使用pdftextstream-2.6.3.jar从Sample.pdf文件中提取文本

2015-01-07T11:22:41.767

0 投票

1 回答

171 浏览

java - Java - 使用 PDFTextStream 时出错

我有一个 PDF 文件，想从中提取文本。我正在使用 PDFTextStream。我从它的文档中得到了这段代码，但它给出了错误。

这是错误：

我正在使用 PDFTextStream 3.3.1 版。第 12 行是这样的：

java pdf pdftextstream snowtide

2016-04-15T18:57:29.753

0 投票

1 回答

11118 浏览

java - Java - 使用 OCR 从 PDF 中提取文本

我有一个 pdf 文件（下面给出了其中的一部分），并想从中提取文本。我使用过 PDFTextStream，但它不适用于此文件。（但是它与其他文件一起使用，它有简单的文本）。

还有哪些其他 OCR 库能够做到这一点？

请帮忙。谢谢你。

java pdf pdfbox text-extraction pdftextstream

2016-04-16T07:58:28.613

0 投票

1 回答

678 浏览

pdf - pdf文档中tj运算符的值是如何产生的（对齐文本）

我无法理解并找到 tj 运算符的值是如何生成的？？

在这里，我在文本显示更改之前和之后粘贴结果（在第二个块上，我更改了位置 Left-Justice，然后再次返回居中）

我认为pdf使用一些prng，但是什么样的，我找不到

请帮忙

[(\003\024\027\005\003\030\036\b) -114.267 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.337 (\b) -111.574 (#\024\002\f\005\002\021\003\007\004\f\005\b) -117.089 (\003\006\002\003\ b) -114.08

[(\003\024\027\005\003\030\036\b) -114.366 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.327 (\b) -111.693 (#\024\002\f\005\002\021\003\007\004\f\005\b) -116.98 (\003\006\002\003\ b) -114.188

pdf text pdf-generation right-justified pdftextstream

2017-05-25T14:45:38.337

0 投票

1 回答

3668 浏览

mysql - 使用 Node.js 搜索 PDF 文本

我有数千个可搜索的 PDF，其中一些高达 1GB，超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前，文件存储在 Google Cloud Storage 存储桶中。

最好的方法是什么？

一些选项：

使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL pdf-text-extract。然后使用 MySQL 查询来搜索文本字符串。
使用一些 NPM 包直接搜索 PDF 文件。

我完全没有了？有没有更好的办法？

mysql node.js google-app-engine pdf pdftextstream

2018-08-14T18:59:04.107

0 投票

1 回答

894 浏览

python - 我收到错误命令“python setup.py egg_info”失败

我正在从 pdf 中进行文本识别和提取，我需要为此安装 textract。但是我在安装时收到此错误：

我不知道如何解决这个问题。

python anaconda installation pdftextstream

2019-05-25T14:26:18.287

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftextstream]

java - 如何使用 Java 使用 PDFExtStream 从 PDF 中提取文本

java - Java - 使用 PDFTextStream 时出错

java - Java - 使用 OCR 从 PDF 中提取文本

pdf - pdf文档中tj运算符的值是如何产生的（对齐文本）

mysql - 使用 Node.js 搜索 PDF 文本

python - 我收到错误命令“python setup.py egg_info”失败

Reference