2

php中是否有任何类可以从pdf文件中提取所有文本,以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素,如图像、表格、纯文本、表单元素、图表等。

到目前为止,我在过去两天看到了许多提取文本的课程,但没有人促进完整的文本提取,而不是从 pdf 中提取完整的文本。

我想从给定的 pdf 文件中提取所有文本,即使文本在表​​格等中。

有人知道吗?:)

非常感谢。祝你今天过得愉快 :)

4

3 回答 3

0

如果您在 linux 服务器上运行它,您可以尝试使用apdf2text通过exec调用它,然后获取输出文件的内容。

请注意,周围有一些 pdf 到文本的脚本,您将获得不同的里程。

于 2011-06-29T13:12:12.330 回答
0

找到以下网址,

使用 PHP 从 PDF 中读取干净的文本

于 2011-06-29T13:16:57.250 回答
0

我测试了很多命令行程序,但没有一个有 100% 的结果。所以我在 PHP 中开始了我自己的库:

https://github.com/smalot/pdfparser

目前它是面向文本的,但将计划支持图像。

如果您遇到问题,感谢您将 PDF 发送给我,如果可能的话,请告诉我您制作它的方式。

于 2013-09-02T21:58:38.230 回答