我已经坚持了很长一段时间了。我想使用托管在专用于此的外部服务器上的 Tika 将 PDF 解析为文本。它应该适用于任何远程 pdf url 和任何 Tika 服务器(目前正在使用这个免费测试一些了不起的家伙设置)。
无论如何,此命令在命令行上完美运行,但无法将其转换为 PHP,我希望能够获取结果文本并将其保存到 db,而不必使用 exec()。
curl "https://rifed-alfgago.c9users.io/wp-content/uploads/2017/06/demopdf.pdf" | curl -X PUT -T http://beta.offenedaten.de:9998/tika
这是我到目前为止在 PHP 中所拥有的,但它不起作用并且找不到原因:
$fileurl = "https://rifed-alfgago.c9users.io/wp-content/uploads/2017/06/demopdf.pdf";
$file = fopen($fileurl, 'r');
$url = "http://beta.offenedaten.de:9998/tika";
$ch = curl_init();
$options = array(
CURLOPT_URL => $url,
CURLOPT_CUSTOMREQUEST => "PUT",
CURLOPT_RETURNTRANSFER => 1,
CURLOPT_HEADER => 1,
CURLOPT_CONNECTTIMEOUT => 120,
CURLOPT_TIMEOUT => 120,
CURLOPT_MAXREDIRS => 10,
CURLOPT_INFILE => $file
);
curl_setopt_array( $ch, $options );
$response = curl_exec($ch);
$httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
echo "<pre>".htmlspecialchars($response)."</pre>";
curl_close ($ch);
谢谢先进