c - 用C从HTML文档中提取信息

Question

在我学习 C（纯 C，不是 C#，也不是 C++。我有我的理由。）的过程中，我遇到了需要从 HTML 文档中提取一些信息，从 URL 中获取。即，我希望链接中的所有 href 属性都位于页面上某个无序列表中的字符串数组中。这些 URL 指向我要下载并存储在 zip 文件中的图像。

现在，我问了几个我认识的擅长 C 的人，他们要么告诉我“C 是错误的工具”，要么指点我 libXML，它显然以稀缺的文档而闻名。我还查看了 libsoup 和 libtidy，但我似乎无法将这些部分拼接在一起。

我应该选择什么方法/库？有谁知道我可以看的一些示例代码？

编辑：看到一半的评论告诉我使用 C 以外的东西，我会补充说我不是在寻找“适合工作的工具”。如果我只是想尽快完成它，我可能会使用 Ruby，只是因为我对它感到满意。这是我学习 C 的一部分，因此，我正在寻找一个纯 C 的解决方案。

score 0 · Accepted Answer

由于您正在寻求学习 C，那么我将使用标准库和 .

http://www.cplusplus.com/reference/clibrary/cstdio/ http://www.cplusplus.com/reference/clibrary/cstring/

最简单的方法是使用其他东西来获取页面，将其写入本地文件，然后将文件名传递给您的程序。将输出打印到 STDOUT。

1 回答 1