问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
670 浏览

java - 为什么 PDFParser 生成特殊字符而不是空格?

以下代码为一个 PDF 生成特殊字符而不是空格,但不是另一个:

根据 PDF,fullText 的子字符串将如下所示:

将*继续*将*被*使用*在*支持*的*中

什么时候应该是这样的:

将继续用于支持

在其他地方,'%' 替代 '-' 和 '!' 在粗体文本中替换空格。

仅在处理一个 PDF 而不是另一个 PDF 时才会出现此问题。根据 pdfinfo,这两个 PDF 都是由 Quartz PDFContext 生成的。

linux 命令 pdftotext 呈现相同的结果。

这是如何生成原始 PDF 的问题吗?为什么会这样?

0 投票
0 回答
1042 浏览

php - PDFToText 未从 PHP 脚本执行

我正在尝试从 PHP 脚本运行 PDFToText,但出现以下错误:

请注意,pdfdir 文件夹和 Estatement.pdf 文件的权限设置为 777。

我的 PHP 脚本如下所示:

当我独立运行 PDFToText(来自 /usr/bin/pdftotext)时,它可以正常工作。

任何帮助表示赞赏,我不确定下一步该去哪里。

问候

0 投票
1 回答
4412 浏览

utf-8 - UTF-8 格式的 PDFTOTEXT 输出需要的文件在哪里?

我想使用基于 XPDF 的 PDFTOTEXT 命令行工具来查看 PDF 文件,希望得到 UTF-8 输出。我在 StackOverflow 上看到其他人得到它——问题 4039930、3809761 和 13618330 表明其他人已经能够使用它。

当我使用该选项时-enc utf-8,将显示这些消息:

我已经看到(除其他外)UTF-8 编码是“预定义”的文档,但我找不到我需要指向的文件。(我查看了多个基于 XPDF 的软件的不同下载,但尚未找到。)

任何指针将不胜感激。

编辑:我在 Windows 上。

0 投票
2 回答
436 浏览

awk - 捕获错误并通过管道传输到 awk

我想捕获错误消息并发送到 awk(例如,pdftotext 在加密 pdf 文件时给出“密码错误”消息)以便 awk 可以打印它。

因为它是下面的命令计算pdf文件中的单词。但是对于有密码的文件,该命令返回 0 个计数,这与没有密码的 pdf 图像冲突(也返回 0 个计数)。

我被困在

如果 pdf 文件受密码保护,那么“命令行错误:密码不正确”会通过管道传输到 awk。我如何打印该短语?(在这种情况下不会有字数。)

A.达斯

0 投票
0 回答
783 浏览

unicode - 如何从字体文件中获取复合字形的字符代码 (Unicode)?

这是我第一次使用字体的经验,所以请忍受行话。

我在做什么: 我必须从包含多语言字符(古吉拉特语,在这种情况下)的 PDF 中提取文本,为此我使用 Python 的 PDFMiner。

我在哪里卡住 了:PDFMiner 在提取大多数字符方面做得很好,但是,对于它无法提取的每个字符,它都会给我一个该字符的 CID。(PDF 中使用的字体文件是Shruti.ttf

例如:对于文本 પર્િસિદ્ધની તારીખ,它给出 પર્િસિ(cid:263)ની તારીખ。这里缺少દ્ધ,其CID为263,字体文件中的字形名称为.notdef#134

我使用 Python 的 TTX/FontTools 从 Shruti.ttf 文件中提取了所有表格,以检查索引 263 上的字符。显然,દ્ધ 是复合字形,它所包含的简单字形在“glyf”表中未提及,而是在那里提到了它的轮廓..

首先,我需要知道我的方法是否正确,或者是否有更好的方法来实现这一点,其次,给定复合字形 CID,我如何获得其组成字形的 Unicode。

谢谢。

0 投票
0 回答
167 浏览

pdf - bash script to read informations from pdf

I have a bunch of pdf files. I would like to create a file containing informations about this pdf's like authors and title. Is it possible to write a script (preferably in bash) which automatize this?

0 投票
1 回答
1957 浏览

linux - Linux PdfToText 函数返回空白文本文件

我使用 linux 函数将 PDF 文件列表转换为文本。

命令:

这适用于我的大多数文件。

但是对于其中的一小部分,这会返回一个空白文本文件。

我未成功的 pdf 文件未加密,未由用户/密码保护,也不是只读的。

0 投票
2 回答
34073 浏览

r - 使用R将PDF文件转换为文本文件进行文本挖掘

我的文件夹中有近千篇 pdf 期刊文章。我需要在整个文件夹中的所有文章摘要上发短信给我。现在我正在做以下事情:

这样,我将一个 pdf 文件转换为一个 .txt 文件,然后将摘要复制到另一个 .txt 文件中并手动编译。这项工作很麻烦。

如何从文件夹中读取所有单篇文章并将它们转换为仅包含每篇文章摘要的 .txt 文件。可以通过限制每篇文章中 ABSTRACT 和 INTRODUCTION 之间的内容来实现;但我不能这样做。任何帮助表示赞赏。

0 投票
2 回答
583 浏览

c# - 正则表达式匹配两个字符串之间的任何内容,除了任何单词

我有一个句子,在句子的开头和结尾之间可以包含任何特殊字符或数字或字母,但不能包含单词。

为了更清楚地说明我的观点,我在下面举例说明:

我有一句话像"Today's Market value 0.5 percent"

现在从上面的“市场价值”和“百分比”之间的句子中,我不能得到任何其他词。

我主要感兴趣的是在这里捡起市场价值,即“0.5”。

请建议我建立一个正则表达式来完成我的上述要求的正确方法。

0 投票
0 回答
886 浏览

python - 使用 pdftotext 从 pdf 中提取文本

我正在尝试使用 python 和 pdftotext 从 pdf 中提取文本。我有一些奇怪的角色,我不知道出了什么问题。例如,对于第 4 页的此 PDF比利时 ...

它给了我这个: %HOJLXP ...

“比利时”有问题。这是我用来从 pdf 中获取文本的函数(取自另一个 SO 帖子):

我应该使用其他工具吗?