谁能帮助我.. 我正在尝试从 LateRooms.com 上抓取酒店评论,不要告诉我这是一个坏主意,因为我已经获得了会员的许可
我的代码:
<?php
header('content-type: text/plain');
$contents = file_get_contents('http://www.laterooms.com/en/hotel-reviews/238902_the-westfield-bb-sandown.aspx');
$contents = preg_replace('/\s(1,)/', ' ', $contents);
print $contents . "\n";
$records = preg_split('/<div id="review/', $contents);
for ($ix = 1; $ix < count($records); $ix++) {
$tmp = $records[$ix];
preg_match('/id="review"/', $tmp, $match_reviews);
print_r($match_reviews);
exit();
}
?>
这真的很好,唯一的问题是它拉入了整个代码页面并且与 div id 'review' 不匹配
提前致谢