php中是否有任何类可以从pdf文件中提取所有文本,以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素,如图像、表格、纯文本、表单元素、图表等。
到目前为止,我在过去两天看到了许多提取文本的课程,但没有人促进完整的文本提取,而不是从 pdf 中提取完整的文本。
我想从给定的 pdf 文件中提取所有文本,即使文本在表格等中。
有人知道吗?:)
非常感谢。祝你今天过得愉快 :)
php中是否有任何类可以从pdf文件中提取所有文本,以便我可以将其存储在mysql数据库中。我的 pdf 有许多元素,如图像、表格、纯文本、表单元素、图表等。
到目前为止,我在过去两天看到了许多提取文本的课程,但没有人促进完整的文本提取,而不是从 pdf 中提取完整的文本。
我想从给定的 pdf 文件中提取所有文本,即使文本在表格等中。
有人知道吗?:)
非常感谢。祝你今天过得愉快 :)
找到以下网址,
我测试了很多命令行程序,但没有一个有 100% 的结果。所以我在 PHP 中开始了我自己的库:
https://github.com/smalot/pdfparser
目前它是面向文本的,但将计划支持图像。
如果您遇到问题,感谢您将 PDF 发送给我,如果可能的话,请告诉我您制作它的方式。