如何从网站获取包含提供的关键字的 URL?
例如:我想捕获此页面 http://www.catererglobal.com/rzwritingajobad.html
上
包含任何关键字(促销、工作)的所有锚点 href
预期结果包括:
http://www.catererglobal.com/recruiters/rz-promote-your-brand http://www.catererglobal.com/recruiters/rz-job-advertising
如何从网站获取包含提供的关键字的 URL?
例如:我想捕获此页面 http://www.catererglobal.com/rzwritingajobad.html
上
包含任何关键字(促销、工作)的所有锚点 href
预期结果包括:
http://www.catererglobal.com/recruiters/rz-promote-your-brand http://www.catererglobal.com/recruiters/rz-job-advertising
这就是我在 php 中的做法 =)
<?php
$oldSetting = libxml_use_internal_errors( true );
libxml_clear_errors();
$html = new DOMDocument();
$html->loadHtmlFile( 'http://www.catererglobal.com/rzwritingajobad.html' );
$xpath = new DOMXPath( $html );
$links = $xpath->query( '//a' );
foreach ( $links as $link ) {
$cur = $link->getAttribute( 'href' );
if (preg_match('/(promote|job)/', $cur)) { echo "$cur\n"; }
}
libxml_clear_errors();
libxml_use_internal_errors( $oldSetting );
?>
输出是:
http://www.catererglobal.com/recruiters/rz-job-advertising/10298792/post-a-job/
/recruiters/rz-job-advertising
/recruiters/rz-promote-your-brand
/moreterms/job-location
http://www.madgex.com/job-boards/
Xpath 是我们最好的朋友 ;)