php - Simplehtmldom - 卷曲、循环、数组？

Question

请原谅最有可能是一个愚蠢的问题。我已经成功地遵循了 simplehtmldom 示例，并从一个网页中获取了我想要的数据。

我希望能够将函数设置为遍历目录中的所有 html 页面并提取数据。我用谷歌搜索和搜索，但现在我很困惑，因为我在无知的状态下认为我可以（以某种方式）使用 PHP 在目录中形成一个文件名数组，但我正在努力解决这个问题。

而且我看到的很多例子似乎都在使用 curl。请有人告诉我应该怎么做。有大量文件。我已经尝试将它们连接起来，但这仅适用于通过 html 编辑器执行此操作 - 使用 cat -> 不起作用。

score 1 · Accepted Answer

您可能想使用glob('some/directory/*.html');（手册页）将所有文件的列表作为数组获取。然后对其进行迭代并为每个文件名使用 DOM 内容。

如果您从另一个 Web 服务器中提取 HTML，如果它们存储在您想要的 Web 服务器上，您只需要 curl glob()。

score 0 · Accepted Answer

假设您谈论的解析器工作正常，您应该构建一个简单的 www-spider。查看网页中的所有链接并构建“要扫描的链接”列表。并扫描每一页...

不过，您应该注意循环引用。

2 回答 2