1

有谁知道从 pdf 文件中提取信息表并将其插入 mysql 数据库而不先将其转换为 csv 或 xml 文件的简单方法?我有超过 200 页的内容,转换每一页都需要我很长时间。

4

1 回答 1

4

没有快速的方法

您需要使用一些 3rd 方应用程序将内容从 pdf 提取为文本,然后将其上传到数据库。但是,是的,一旦脚本准备好,这可以通过编程方式实现。

示例:从http://pastebin.com/hRviHKp1下载 class.pdf2text.php

然后做这样的提取:

include('class.pdf2text.php');
$pdfobj = new PDF2Text();

$pdf_list = array('1.pdf', '2.pdf', '3.pdf', '4.pdf');
foreach($pdf_list as $pdf_file){
  $pdfobj->setFilename($pdf_file); 
  $pdfobj->decodePDF();
  echo $pdfobj->output(); 

// using regex break the content in desired format & then store it to database

}

希望这会有所帮助。

于 2013-05-24T17:54:07.203 回答