问题标签 [pdftextstream]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1331 浏览

java - 如何使用 Java 使用 PDFExtStream 从 PDF 中提取文本

未使用pdftextstream-2.6.3.jarSample.pdf文件中提取文本

0 投票
1 回答
171 浏览

java - Java - 使用 PDFTextStream 时出错

我有一个 PDF 文件,想从中提取文本。我正在使用 PDFTextStream。我从它的文档中得到了这段代码,但它给出了错误。

这是错误:

我正在使用 PDFTextStream 3.3.1 版。第 12 行是这样的:

0 投票
1 回答
11118 浏览

java - Java - 使用 OCR 从 PDF 中提取文本

我有一个 pdf 文件(下面给出了其中的一部分),并想从中提取文本。我使用过 PDFTextStream,但它不适用于此文件。(但是它与其他文件一起使用,它有简单的文本)。

还有哪些其他 OCR 库能够做到这一点?

请帮忙。谢谢你。

pdf文件的一瞥

pdf文件的截图

0 投票
1 回答
678 浏览

pdf - pdf文档中tj运算符的值是如何产生的(对齐文本)

我无法理解并找到 tj 运算符的值是如何生成的??

在这里,我在文本显示更改之前和之后粘贴结果(在第二个块上,我更改了位置 Left-Justice,然后再次返回居中)

我认为pdf使用一些prng,但是什么样的,我找不到

请帮忙

[(\003\024\027\005\003\030\036\b) -114.267 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.337 (\b) -111.574 (#\024\002\f\005\002\021\003\007\004\f\005\b) -117.089 (\003\006\002\003\ b) -114.08


[(\003\024\027\005\003\030\036\b) -114.366 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.327 (\b) -111.693 (#\024\002\f\005\002\021\003\007\004\f\005\b) -116.98 (\003\006\002\003\ b) -114.188

0 投票
1 回答
3668 浏览

mysql - 使用 Node.js 搜索 PDF 文本

我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前,文件存储在 Google Cloud Storage 存储桶中。

最好的方法是什么?

一些选项:

  • 使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL pdf-text-extract。然后使用 MySQL 查询来搜索文本字符串。
  • 使用一些 NPM 包直接搜索 PDF 文件。

我完全没有了?有没有更好的办法?

0 投票
1 回答
894 浏览

python - 我收到错误命令“python setup.py egg_info”失败

我正在从 pdf 中进行文本识别和提取,我需要为此安装 textract。但是我在安装时收到此错误:

我不知道如何解决这个问题。