我有一个 url 抓取器设置,它工作正常。它抓取响应标头中的文档的 url,例如:
<script type='text/javascript' language='JavaScript'>
document.location.href = 'http\x3a\x2f\x2fcms.example.com\x2fd\x2fd\x2fworkspace\x2fSpacesStore\x2f61d96949-b8fb-43f1-adaf-0233368984e0\x2fFinancial\x2520Agility\x2520Report.pdf\x3fguest\x3dtrue'
</script>
这是我的抓取脚本。
<?php
set_time_limit(0);
$target_url = $_POST['to'];
$html =file_get_contents($target_url);
$pattern = "/document.location.href = '([^']*)'/";
preg_match($pattern, $html, $matches, PREG_OFFSET_CAPTURE, 3);
$raw_url = $matches[1][0];
$eval_url = '$url = "'.$raw_url.'";';
eval($eval_url);
echo $url;
我们必须在我们的文档管理系统中添加一个变量,所以每个文档 url 都需要在 url 的末尾加上 ?guest=true。当我们这样做时,我的抓取器返回了完整的 url 并将其附加到文件名中。所以我试图让它只抓取 url,直到它到达 /guest=true。使用此代码:
<?php
set_time_limit(0);
$target_url = $_POST['to'];
$html =file_get_contents($target_url);
$pattern = "/document.location.href = '([^']*)\x3fguest\x3dtrue'/";
preg_match($pattern, $html, $matches, PREG_OFFSET_CAPTURE, 3);
$raw_url = $matches[1][0];
$eval_url = '$url = "'.$raw_url.'";';
eval($eval_url);
echo $url;
为什么直到 ?guest=true 部分才返回 url?aka 为什么这不起作用?解决方法是什么?