-1

特别是我只是在寻找在几个 div 中加载的内容。

我应该使用 cURL 吗?

我知道这一点:

http://simplehtmldom.sourceforge.net/

但不确定如何提取 div 类和 id。

$html = file_get_contents("http://anywhoyp.yellowpages.com/whitepages");

$dom = new DOMDocument;
$dom->loadHTML($html);

$items = $dom->getElementsByTagName('div');
for ($i = 0; $i < $items->length; $i++)
        echo $items->item($i)->nodeValue . "<br/>";
4

1 回答 1

1

好吧,file_get_contents 将为您提供不需要的完整页面源。因此,您必须在之后使用 DOM 解析器来提取您需要的内容。问题是 PHP 的 DOM 解析器太慢了。在https://github.com/msmuenchen/wiki-staticdumps/blob/master/scripts/process.php中,我使用 ganon 库来修改 DOM - 您应该能够从这个源代码中弄清楚如何使它适合您的需求。

于 2012-12-28T19:44:20.347 回答