问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1435 浏览

pdftotext - pdftohtml 的替代品

我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!

请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。

我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。

有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?

谢谢,

山姆

0 投票
1 回答
877 浏览

python - PDFtotext - 空格在命令行上显示为 aacute

我正在使用 python 从使用 pdftotext 从 pdf 创建的文本文件中提取文本。它是 2000 个文件之一,在这个特定的文件中,一行关键字以 EU 结尾。该行的其余部分对肉眼来说是空白的,下面的行也是如此。

程序通常会去掉行尾的任何尾随空白并忽略随后的空白行。

在这种情况下,它保存了在“EU.”之间的文本文件中打印出来时看到的空格,类似地在 html 中(Simile Exhibit)。

我还打印到命令行,在这里我看到了一个 aacute 字符串。[?]

我认为解决这个问题的明显方法是搜索和替换acute。我试图用一个编译语句来做到这一点,并且我已经玩过解码传入文本的排列。

奇怪的是,当我打印“\255”时,我没有得到 aacute,而是得到一个 o 坟墓。

这种奇怪的错误组合似乎很可能使我误解了一些基本的东西。关于如何开始解开这个问题的任何提示?

非常感谢。

0 投票
2 回答
2279 浏览

curl - Solr 索引 PDF 文档并将它们发布到远程服务器

嗨,当谈到 Solr 时,我是一个天真的用户。请指导我解决以下障碍。

1) Solr 索引 PDF 文档

尝试过的解决方案

我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。

2)将它们发布到远程服务器

我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。

问候巴拉吉。

0 投票
1 回答
7268 浏览

java - 我想使用 java 在 PDF 文档中添加一行

我目前正在使用 PDFBox 并从文件夹 1 中的 a.pdf 中读取

我首先列出在文件夹中找到的所有 Pdf 文件。然后我检查每个文件的页数。现在我想转到页脚下方文件的最后,添加一个打印机可以识别的图像来装订页面,因为它会意识到它已经到达文件末尾。

我已经到了,直到获得文件列表和页数。

我使用什么命令转到最后一页的末尾并在那里写。

我应该将 .pdf 文件转换为文本还是应该能够使用 PDPageContentStream

这是我目前正在使用的代码,我正在尝试测试并查看是否将 AAA 字符串插入到我的 pdf 文件的最后一页中。该项目正在执行,没有错误,但由于某种原因它没有被插入到 pdf 中。

感谢您的关注


我上面使用的代码是正确的。问题是生成的 PDF 文件是 1.2 版,这就是我不允许编辑 pdf 文档的原因。

有谁知道如果我使用的是 1.2 版我应该怎么做,因为我无法真正升级它。

0 投票
3 回答
4984 浏览

pdf - 将PDF转换为没有pdftotext的文本?

我必须将 PDF 转换为文本,目前我正在使用pdftotext.exe. 这有时会弄乱结果文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

0 投票
3 回答
1948 浏览

c# - 使用 Foxit SDK 提取文本格式 pdf

我正在使用Foxit SDK从 Pdf 文档中提取文本。

一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。

我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。

是否有其他可以解决问题的库..?或者还有其他解决方案。

0 投票
2 回答
613 浏览

php - shell_exec() 语句到 pdftotext 整个目录?

我不知道如何pdftotext通过shell_exec()语句为整个目录构建循环。

就像是 :

但我不确定如何在第二次调用$pdfs我的shell_exec()声明时删除 .pdf 扩展名并将其替换为.txt

也不确定这个循环是否正确......

0 投票
1 回答
1567 浏览

c# - itextsharp PdfTextExtractor 拼写错误

我们的数据库中有一个 PDF 格式的二进制文件。我将其流式传输并保存为 PDF 文件,并使用两个源进行了测试,最终得到相同的结果:PdfTextExtractor 拼错了一些单词。

例如,PDF 中有一个词“已确认”。PdfTextExtractor 转换后,拼写为“已确认”。

我在调试中逐步完成该过程,它在被 PdfTextExtractor 转换后立即拼写错误,所以我确信它不是不准确的,因为我正在做一些事情。

我能做些什么来提高 PdfTextExtractor 的准确性吗?

这是我目前正在使用的代码:

0 投票
1 回答
2244 浏览

php - 是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本

我正在寻找一些(最好是免费的)库,它可以帮助从指定的矩形区域中提取 PDF 文本,该矩形区域由左、上、宽和高参数指定。它应该可以在 linux 系统上与 PHP 一起使用。您能否建议这样一个库和一个工作示例?

0 投票
1 回答
690 浏览

php - PHP - 将 PDF 转换为文本(无法访问 exec/shell_exec)

案子:

  • 服务器不支持 exec/shell_exec (所以 pdftotext 被排除在外)
  • 其他图书馆不接受 PDF。Pdftotext 有效(在本地文件上测试)

以下是(PDF)代码的一些摘录:

关于创作者:

我想获得一些关于如何在 PHP 中将其转换为纯文本的建议,而不使用 exec/shell_exec 函数。

谢谢你。

(其他解决方案,如http://webcheatsheet.com/php/reading_clean_text_from_pdf.php不起作用,我无法让他们至少将此代码转换为看起来像 ASCII 代码的东西。)