0

请原谅最有可能是一个愚蠢的问题。我已经成功地遵循了 simplehtmldom 示例,并从一个网页中获取了我想要的数据。

我希望能够将函数设置为遍历目录中的所有 html 页面并提取数据。我用谷歌搜索和搜索,但现在我很困惑,因为我在无知的状态下认为我可以(以某种方式)使用 PHP 在目录中形成一个文件名数组,但我正在努力解决这个问题。

而且我看到的很多例子似乎都在使用 curl。请有人告诉我应该怎么做。有大量文件。我已经尝试将它们连接起来,但这仅适用于通过 html 编辑器执行此操作 - 使用 cat -> 不起作用。

4

2 回答 2

1

您可能想使用glob('some/directory/*.html');手册页)将所有文件的列表作为数组获取。然后对其进行迭代并为每个文件名使用 DOM 内容。

如果您从另一个 Web 服务器中提取 HTML,如果它们存储在您想要的 Web 服务器上,您只需要 curl glob()

于 2009-10-15T23:13:30.273 回答
0

假设您谈论的解析器工作正常,您应该构建一个简单的 www-spider。查看网页中的所有链接并构建“要扫描的链接”列表。并扫描每一页...

不过,您应该注意循环引用。

于 2009-10-15T12:43:59.750 回答