问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdftotext - pdftohtml 的替代品
我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!
请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。
我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。
有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?
谢谢,
山姆
python - PDFtotext - 空格在命令行上显示为 aacute
我正在使用 python 从使用 pdftotext 从 pdf 创建的文本文件中提取文本。它是 2000 个文件之一,在这个特定的文件中,一行关键字以 EU 结尾。该行的其余部分对肉眼来说是空白的,下面的行也是如此。
程序通常会去掉行尾的任何尾随空白并忽略随后的空白行。
在这种情况下,它保存了在“EU.”之间的文本文件中打印出来时看到的空格,类似地在 html 中(Simile Exhibit)。
我还打印到命令行,在这里我看到了一个 aacute 字符串。[?]
我认为解决这个问题的明显方法是搜索和替换acute。我试图用一个编译语句来做到这一点,并且我已经玩过解码传入文本的排列。
奇怪的是,当我打印“\255”时,我没有得到 aacute,而是得到一个 o 坟墓。
这种奇怪的错误组合似乎很可能使我误解了一些基本的东西。关于如何开始解开这个问题的任何提示?
非常感谢。
curl - Solr 索引 PDF 文档并将它们发布到远程服务器
嗨,当谈到 Solr 时,我是一个天真的用户。请指导我解决以下障碍。
1) Solr 索引 PDF 文档
尝试过的解决方案
我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件中。现在我正在尝试编写一个 java 代码来将文档索引到 Solr。
2)将它们发布到远程服务器
我需要将文档或索引发布到中央远程服务器。可以使用 curl 命令。
问候巴拉吉。
java - 我想使用 java 在 PDF 文档中添加一行
我目前正在使用 PDFBox 并从文件夹 1 中的 a.pdf 中读取
我首先列出在文件夹中找到的所有 Pdf 文件。然后我检查每个文件的页数。现在我想转到页脚下方文件的最后,添加一个打印机可以识别的图像来装订页面,因为它会意识到它已经到达文件末尾。
我已经到了,直到获得文件列表和页数。
我使用什么命令转到最后一页的末尾并在那里写。
我应该将 .pdf 文件转换为文本还是应该能够使用 PDPageContentStream
这是我目前正在使用的代码,我正在尝试测试并查看是否将 AAA 字符串插入到我的 pdf 文件的最后一页中。该项目正在执行,没有错误,但由于某种原因它没有被插入到 pdf 中。
感谢您的关注
我上面使用的代码是正确的。问题是生成的 PDF 文件是 1.2 版,这就是我不允许编辑 pdf 文档的原因。
有谁知道如果我使用的是 1.2 版我应该怎么做,因为我无法真正升级它。
pdf - 将PDF转换为没有pdftotext的文本?
我必须将 PDF 转换为文本,目前我正在使用pdftotext.exe
. 这有时会弄乱结果文本,所以我不能使用它。
我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。
c# - 使用 Foxit SDK 提取文本格式 pdf
我正在使用Foxit SDK从 Pdf 文档中提取文本。
一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。
我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。
是否有其他可以解决问题的库..?或者还有其他解决方案。
php - shell_exec() 语句到 pdftotext 整个目录?
我不知道如何pdftotext
通过shell_exec()
语句为整个目录构建循环。
就像是 :
但我不确定如何在第二次调用$pdfs
我的shell_exec()
声明时删除 .pdf 扩展名并将其替换为.txt
也不确定这个循环是否正确......
c# - itextsharp PdfTextExtractor 拼写错误
我们的数据库中有一个 PDF 格式的二进制文件。我将其流式传输并保存为 PDF 文件,并使用两个源进行了测试,最终得到相同的结果:PdfTextExtractor 拼错了一些单词。
例如,PDF 中有一个词“已确认”。PdfTextExtractor 转换后,拼写为“已确认”。
我在调试中逐步完成该过程,它在被 PdfTextExtractor 转换后立即拼写错误,所以我确信它不是不准确的,因为我正在做一些事情。
我能做些什么来提高 PdfTextExtractor 的准确性吗?
这是我目前正在使用的代码:
php - 是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本
我正在寻找一些(最好是免费的)库,它可以帮助从指定的矩形区域中提取 PDF 文本,该矩形区域由左、上、宽和高参数指定。它应该可以在 linux 系统上与 PHP 一起使用。您能否建议这样一个库和一个工作示例?
php - PHP - 将 PDF 转换为文本(无法访问 exec/shell_exec)
案子:
- 服务器不支持 exec/shell_exec (所以 pdftotext 被排除在外)
- 其他图书馆不接受 PDF。Pdftotext 有效(在本地文件上测试)
以下是(PDF)代码的一些摘录:
关于创作者:
我想获得一些关于如何在 PHP 中将其转换为纯文本的建议,而不使用 exec/shell_exec 函数。
谢谢你。
(其他解决方案,如http://webcheatsheet.com/php/reading_clean_text_from_pdf.php不起作用,我无法让他们至少将此代码转换为看起来像 ASCII 代码的东西。)