我希望能够通过 PHP 将 PDF 文件转换为 HTML 文件,但遇到了一些麻烦。
我找到了一种使用Saaspose执行此操作的基本方法,它可以让您将 PDF 转换为 HTML 文件。但是,这样做存在一些问题,例如使用 SVG、图像、定位、字体等。
我所需要的只是能够从 PHP 文件和与之关联的任何图像中获取文本,然后以线性格式显示它,而不是使用绝对定位进行格式化。
我的意思是,如果 PDF 看起来像这样:
我想将其转换为单列设计 HTML 文件。如果有图像,我也希望它们返回。
这在PHP中可能吗?我知道我可以简单地从 PDF 文件中获取文本,但是也可以获取图像呢?
另一个问题是我希望所有内容都内联,因为它在单个文件中提供给客户端。目前,我可以通过一些代码通过我的设置来做到这一点:
for ($i = 0; $i < $object_number; $i++) {
$object = $html->find("object")->find("embed")->eq($i);
$embed = file_get_contents("Output/OutputHtml/" . $object->attr("src"));
array_push($converted_obj, $embed);
array_push($original_obj, $object);
}
for ($i = 0; $i < $object_number; $i++){
pq($original_obj[$i])->replaceWith($converted_obj[$i]);
}
它抓取所有SVG
文件并内联显示它们。图像会更容易,因为我可以使用base64
.