3

请帮忙!:(

我希望开发一个 PHP 脚本来执行以下操作:

  • 报废一个远程 HTML 页面并提取选定的数据(例如特定的表/div)
  • 使用提取的数据并将其保存到数据库中(例如 MySql)

任何人都可以帮忙吗?

感谢并感谢您的尽快反馈。

4

3 回答 3

7

使用cUrl检索页面。

使用Simple HTML DOM Parser查找您需要的数据。

最终iconv将获取的数据转换为您的数据库字符集。

并且只是 mysql 连接和简单的查询来存储数据(不要忘记转义)。

于 2010-08-24T10:31:20.123 回答
3

这是一些完成这项工作的代码:

// Fetch page
$file = fopen($url, "r"); 

$data = '';
while (!feof($file)) {
// Extract the data from the file / url
$data .= fgets($file, 1024);
}

$doc = new DOMDocument();

$doc->loadHtml($data);

// XPath lets you search DOM documents easily
$xpath = new DOMXPath($doc);
$nodelist = $xpath->query('//table[class=mytable]');

这将为任何具有“mytable”类的表获取一个节点列表,您可以对其进行迭代

看看DomDocumentXPath

于 2010-08-24T10:40:17.033 回答
0

真是巧合,最近我也在做类似的项目。我的最终解决方案是

  1. cUrl 从 url 中获取内容
  2. 简单的 HTML DOM 解析器使用 jquery 之类的选择器获取所需的 html 部分。

我强烈推荐他们两个。

于 2010-08-24T10:40:03.243 回答