php - 如何在 PHP 中创建 HTML 刮板并使其正常工作？

Question

请帮忙！:(

我希望开发一个 PHP 脚本来执行以下操作：

报废一个远程 HTML 页面并提取选定的数据（例如特定的表/div）
使用提取的数据并将其保存到数据库中（例如 MySql）

任何人都可以帮忙吗？

感谢并感谢您的尽快反馈。

score 7 · Accepted Answer

使用cUrl检索页面。

使用Simple HTML DOM Parser查找您需要的数据。

最终iconv将获取的数据转换为您的数据库字符集。

并且只是 mysql 连接和简单的查询来存储数据（不要忘记转义）。

score 3 · Accepted Answer

这是一些完成这项工作的代码：

// Fetch page
$file = fopen($url, "r"); 

$data = '';
while (!feof($file)) {
// Extract the data from the file / url
$data .= fgets($file, 1024);
}

$doc = new DOMDocument();

$doc->loadHtml($data);

// XPath lets you search DOM documents easily
$xpath = new DOMXPath($doc);
$nodelist = $xpath->query('//table[class=mytable]');

这将为任何具有“mytable”类的表获取一个节点列表，您可以对其进行迭代

看看DomDocument和XPath。

score 0 · Accepted Answer

真是巧合，最近我也在做类似的项目。我的最终解决方案是

cUrl 从 url 中获取内容
简单的 HTML DOM 解析器使用 jquery 之类的选择器获取所需的 html 部分。

我强烈推荐他们两个。

php - 如何在 PHP 中创建 HTML 刮板并使其正常工作？

3 回答 3

Related

Reference