0

可能重复:
如何使用 PHP 解析和处理 HTML?

我正在编写一个脚本,该脚本应该废弃页面的 html 并在页面上找到“联系”或“联系我们”网址。所以我拥有的是 url,我能够使用 curl 获取页面的 html。

现在我需要做的就是找到联系链接并尝试提取电子邮件地址和电话号码。

我的问题是我如何喜欢联系网址?我应该寻找什么?也许链接文本应该包含单词contact,或者url应该包含单词contact?正则表达式会是什么样子?

其次,我认为一旦我有了联系页面,我应该能够在线找到一个正则表达式,它将提取电子邮件地址和电话号码。所以我只需要找到联系链接。我正在抓取的这些页面是博客。

4

2 回答 2

1

要查找联系页面 URL,我认为您最好使用 XML 解析器来“扫描”DOM(例如:标签)。

如果您了解 jQuery,则可以使用phpQuery,这是一个模仿 jQuery 选择器的 PHP HTML 解析器。

基本上,使用 Regex 解析 HTML 通常是一个坏主意,请参阅Parsing Html The Cthulhu Way

于 2012-11-29T15:09:23.883 回答
0

您可以卷曲该联系页面,然后只需 preg_match $result = curl_exec($resource)

preg_match_all("/[\._a-zA-Z0-9-]+@[\._a-zA-Z0-9-]+/i", $result, $matches);
  print_r($matches[0]);
于 2012-11-29T15:34:48.903 回答