php - 如何使用 Zend_Pdf 从 pdf 页面提取文本

Question

任何人都可以帮助从 pdf 的页面中提取文本吗？

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

我会假设存在一个页面方法，但我找不到任何可以让我提取内容的东西。

示例：$page->getContents(); $page->toString(); $page->extractText();

...帮助！！！！这真让我抓狂！

score 2 · Accepted Answer

我同意安迪的观点，这似乎不受支持。作为替代方案，请查看Shaun Farrell 的解决方案，用于从 PDF 中提取文本以与 Zend_Search_Lucene 一起使用。他使用XPDF，这也可能满足您的需求。

score 0 · Accepted Answer

从手册来看，似乎不支持此功能。此外，新文本是使用drawText() 函数编写的，该函数似乎是在编写图像，而不是普通的“可解码”文本。

2 回答 2