有谁知道从 pdf 文件中提取信息表并将其插入 mysql 数据库而不先将其转换为 csv 或 xml 文件的简单方法?我有超过 200 页的内容,转换每一页都需要我很长时间。
问问题
5030 次
1 回答
4
没有快速的方法。
您需要使用一些 3rd 方应用程序将内容从 pdf 提取为文本,然后将其上传到数据库。但是,是的,一旦脚本准备好,这可以通过编程方式实现。
示例:从http://pastebin.com/hRviHKp1下载 class.pdf2text.php
然后做这样的提取:
include('class.pdf2text.php');
$pdfobj = new PDF2Text();
$pdf_list = array('1.pdf', '2.pdf', '3.pdf', '4.pdf');
foreach($pdf_list as $pdf_file){
$pdfobj->setFilename($pdf_file);
$pdfobj->decodePDF();
echo $pdfobj->output();
// using regex break the content in desired format & then store it to database
}
希望这会有所帮助。
于 2013-05-24T17:54:07.203 回答