问题标签 [pdftextstream]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java - 使用 PDFTextStream 时出错
我有一个 PDF 文件,想从中提取文本。我正在使用 PDFTextStream。我从它的文档中得到了这段代码,但它给出了错误。
这是错误:
我正在使用 PDFTextStream 3.3.1 版。第 12 行是这样的:
pdf - pdf文档中tj运算符的值是如何产生的(对齐文本)
我无法理解并找到 tj 运算符的值是如何生成的??
在这里,我在文本显示更改之前和之后粘贴结果(在第二个块上,我更改了位置 Left-Justice,然后再次返回居中)
我认为pdf使用一些prng,但是什么样的,我找不到
请帮忙
[(\003\024\027\005\003\030\036\b) -114.267 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.337 (\b) -111.574 (#\024\002\f\005\002\021\003\007\004\f\005\b) -117.089 (\003\006\002\003\ b) -114.08
[(\003\024\027\005\003\030\036\b) -114.366 (\003\006\007\024\036\b)-113.297(\026\002\024\003\032\020 \b) -113.327 (\b) -111.693 (#\024\002\f\005\002\021\003\007\004\f\005\b) -116.98 (\003\006\002\003\ b) -114.188
mysql - 使用 Node.js 搜索 PDF 文本
我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。
目前,文件存储在 Google Cloud Storage 存储桶中。
最好的方法是什么?
一些选项:
- 使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL
pdf-text-extract
。然后使用 MySQL 查询来搜索文本字符串。 - 使用一些 NPM 包直接搜索 PDF 文件。
我完全没有了?有没有更好的办法?
python - 我收到错误命令“python setup.py egg_info”失败
我正在从 pdf 中进行文本识别和提取,我需要为此安装 textract。但是我在安装时收到此错误:
我不知道如何解决这个问题。