我想抓取一些学术搜索引擎,例如:http ://scholar.google.com/scholar?hl=en&q=internet&btnG=&as_sdt=1%2C5&as_sdtp= 我想得到标题,有pdf的数据的url地址仅文件。这是代码:
require_once 'simple_html_dom.php';
$url = 'http://scholar.google.com/scholar?hl=en&q=internet&btnG=&as_sdt=1%2C5&as_sdtp=';
$html = file_get_html($url) or die ('');
foreach($html->find('h3[class=gs_rt] a') as $link1){
foreach($link1->parent()->parent()->parent()->find('div[class=gs_md_wp]') as $link2){
$docLink = $link2->first_child();
$link = $docLink->href;
$mime = mime_content_type($link);
if ($mime == 'application/pdf'){
$title = strip_tags($link1->plaintext);echo $title;
$webLink = strip_tags($link1->href);echo $webLink;
$pdfLink = strip_tags($link);echo $link;
}
}
}
但我收到警告Fatal error: Call to undefined function mime_content_type() in D:\AppServ\www\ekstension\try3.php on line 10
。
仅供参考,我已extension=php_mime_magic.dll
在 php.ini 中激活。怎么了 ?谢谢