我正在尝试遵循使用 php进行网络抓取的教程。
我大致了解发生了什么,但我不知道如何过滤已抓取的内容以获得我想要的内容。例如:
<?php
$file_string = file_get_contents('page_to_scrape.html');
preg_match('/<title>(.*)<\/title>/i', $file_string, $title);
$title_out = $title[1];
?>
我看到(.*)
将检索标题标签之间的所有内容,我可以使用正则表达式来获取特定信息。说里面他的标题有Welcome visitor #100
我如何得到哈希后的数字?
还是我必须检索标签之间的所有内容,然后再对其进行操作?