问题标签 [pdftotext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 问题

0 投票

1 回答

1435 浏览

pdftotext - pdftohtml 的替代品

我正在尝试使用 pdftohtml，但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中，这使我尝试解析结果数据是徒劳的！

请注意，这仅在 PDF 中发生一次或两次，并且非常不可预测。

我已经尝试过最新版本的 pdftohtml（包括 0.40a 测试版），但无济于事。

有人知道任何可能值得尝试的与 Linux 兼容的等价物吗？

谢谢，

山姆

pdftotext pdf-to-html

2011-04-01T16:28:47.507

0 投票

1 回答

877 浏览

python - PDFtotext - 空格在命令行上显示为 aacute

我正在使用 python 从使用 pdftotext 从 pdf 创建的文本文件中提取文本。它是 2000 个文件之一，在这个特定的文件中，一行关键字以 EU 结尾。该行的其余部分对肉眼来说是空白的，下面的行也是如此。

程序通常会去掉行尾的任何尾随空白并忽略随后的空白行。

在这种情况下，它保存了在“EU.”之间的文本文件中打印出来时看到的空格，类似地在 html 中（Simile Exhibit）。

我还打印到命令行，在这里我看到了一个 aacute 字符串。[?]

我认为解决这个问题的明显方法是搜索和替换acute。我试图用一个编译语句来做到这一点，并且我已经玩过解码传入文本的排列。

奇怪的是，当我打印“\255”时，我没有得到 aacute，而是得到一个 o 坟墓。

这种奇怪的错误组合似乎很可能使我误解了一些基本的东西。关于如何开始解开这个问题的任何提示？

非常感谢。

2011-04-16T23:10:29.767

0 投票

2 回答

2279 浏览

curl - Solr 索引 PDF 文档并将它们发布到远程服务器

嗨，当谈到 Solr 时，我是一个天真的用户。请指导我解决以下障碍。

1) Solr 索引 PDF 文档

尝试过的解决方案

我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。

2）将它们发布到远程服务器

我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。

问候巴拉吉。

curl indexing solr apache-tika pdftotext

2011-06-26T07:56:59.353

0 投票

1 回答

7268 浏览

java - 我想使用 java 在 PDF 文档中添加一行

我目前正在使用 PDFBox 并从文件夹 1 中的 a.pdf 中读取

我首先列出在文件夹中找到的所有 Pdf 文件。然后我检查每个文件的页数。现在我想转到页脚下方文件的最后，添加一个打印机可以识别的图像来装订页面，因为它会意识到它已经到达文件末尾。

我已经到了，直到获得文件列表和页数。

我使用什么命令转到最后一页的末尾并在那里写。

我应该将 .pdf 文件转换为文本还是应该能够使用 PDPageContentStream

这是我目前正在使用的代码，我正在尝试测试并查看是否将 AAA 字符串插入到我的 pdf 文件的最后一页中。该项目正在执行，没有错误，但由于某种原因它没有被插入到 pdf 中。

感谢您的关注

我上面使用的代码是正确的。问题是生成的 PDF 文件是 1.2 版，这就是我不允许编辑 pdf 文档的原因。

有谁知道如果我使用的是 1.2 版我应该怎么做，因为我无法真正升级它。

java pdf pdfbox pdftotext

2011-08-31T09:38:20.873

0 投票

3 回答

4984 浏览

pdf - 将PDF转换为没有pdftotext的文本？

我必须将 PDF 转换为文本，目前我正在使用pdftotext.exe. 这有时会弄乱结果文本，所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗？我更喜欢命令行工具。

pdf pdftotext

2012-01-17T08:40:29.270

0 投票

3 回答

1948 浏览

c# - 使用 Foxit SDK 提取文本格式 pdf

我正在使用Foxit SDK从 Pdf 文档中提取文本。

一切都很好，但是当我提取其他语言而不是英语的 pdf 时，我没有得到正确的输出。

我也在java中使用过PDFBox，但这给了我最差的输出，Foxit SDK的输出比PDFBox好。

是否有其他可以解决问题的库..？或者还有其他解决方案。

c#java pdf pdftotext foxit

2012-01-27T05:51:48.397

0 投票

2 回答

613 浏览

php - shell_exec() 语句到 pdftotext 整个目录？

我不知道如何pdftotext通过shell_exec()语句为整个目录构建循环。

就像是：

但我不确定如何在第二次调用$pdfs我的shell_exec()声明时删除 .pdf 扩展名并将其替换为.txt

也不确定这个循环是否正确......

php foreach pdftotext

2012-04-04T15:20:04.073

0 投票

1 回答

1567 浏览

c# - itextsharp PdfTextExtractor 拼写错误

我们的数据库中有一个 PDF 格式的二进制文件。我将其流式传输并保存为 PDF 文件，并使用两个源进行了测试，最终得到相同的结果：PdfTextExtractor 拼错了一些单词。

例如，PDF 中有一个词“已确认”。PdfTextExtractor 转换后，拼写为“已确认”。

我在调试中逐步完成该过程，它在被 PdfTextExtractor 转换后立即拼写错误，所以我确信它不是不准确的，因为我正在做一些事情。

我能做些什么来提高 PdfTextExtractor 的准确性吗？

这是我目前正在使用的代码：

c#itextsharp pdf-conversion pdftotext

2012-04-23T20:41:34.880

0 投票

1 回答

2244 浏览

php - 是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本

我正在寻找一些（最好是免费的）库，它可以帮助从指定的矩形区域中提取 PDF 文本，该矩形区域由左、上、宽和高参数指定。它应该可以在 linux 系统上与 PHP 一起使用。您能否建议这样一个库和一个工作示例？

php pdf pdftotext pdf-to-html

2012-05-23T07:57:30.467

0 投票

1 回答

690 浏览

php - PHP - 将 PDF 转换为文本（无法访问 exec/shell_exec）

案子：

服务器不支持 exec/shell_exec (所以 pdftotext 被排除在外)
其他图书馆不接受 PDF。Pdftotext 有效（在本地文件上测试）

以下是（PDF）代码的一些摘录：

关于创作者：

我想获得一些关于如何在 PHP 中将其转换为纯文本的建议，而不使用 exec/shell_exec 函数。

谢谢你。

（其他解决方案，如http://webcheatsheet.com/php/reading_clean_text_from_pdf.php不起作用，我无法让他们至少将此代码转换为看起来像 ASCII 代码的东西。）

php pdf exec pdftotext

2012-06-14T20:22:46.030

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftotext]

Reference