任何人都可以帮助从 pdf 的页面中提取文本吗?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
我会假设存在一个页面方法,但我找不到任何可以让我提取内容的东西。
示例:$page->getContents(); $page->toString(); $page->extractText();
...帮助!!!!这真让我抓狂!
任何人都可以帮助从 pdf 的页面中提取文本吗?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
我会假设存在一个页面方法,但我找不到任何可以让我提取内容的东西。
示例:$page->getContents(); $page->toString(); $page->extractText();
...帮助!!!!这真让我抓狂!
我同意安迪的观点,这似乎不受支持。作为替代方案,请查看Shaun Farrell 的解决方案,用于从 PDF 中提取文本以与 Zend_Search_Lucene 一起使用。他使用XPDF,这也可能满足您的需求。
从手册来看,似乎不支持此功能。此外,新文本是使用drawText() 函数编写的,该函数似乎是在编写图像,而不是普通的“可解码”文本。