所以我想用 C 创建一个网络爬虫。几乎没有任何库支持这个。
我可以使用libtidy将 HTML 转换为 XHTML,并使用libcurl获取 HTML 文件(它有不错的文档)。
我的问题是解析 HTML 文件并获取其中存在的所有链接。我知道有libxml2 ,但它非常难以理解,因为它的 API 没有好的文档。
我什至应该用 C 来做这件事,还是用另一种语言,比如 Java?或者libxml2有什么好的替代品吗?
所以我想用 C 创建一个网络爬虫。几乎没有任何库支持这个。
我可以使用libtidy将 HTML 转换为 XHTML,并使用libcurl获取 HTML 文件(它有不错的文档)。
我的问题是解析 HTML 文件并获取其中存在的所有链接。我知道有libxml2 ,但它非常难以理解,因为它的 API 没有好的文档。
我什至应该用 C 来做这件事,还是用另一种语言,比如 Java?或者libxml2有什么好的替代品吗?