c++ - 是否有用于从 HTML 页面中提取数据的库？

Question

我想从网页中提取信息。不幸的是，据我所知，该网站 (4chan) 没有公共 API。

什么是从 HTML 文档中提取特定数据的好库？我更喜欢在 UNIX 系统上运行的免费软件库。

编辑：基本上我想从 4chan 获取帖子和图片。该网页不是有效的 HTML（并且没有 doctype），因此解析器不应该太严格。

score 2 · Accepted Answer

您正在寻找的是 HTML Dom Parse。

score 0 · Accepted Answer

没错，有很多用于解析 html 数据的库。例如，如果您使用 Perl，则可以使用 HTML::Parse。

如果您只想要一个快速的结果并且您同意使用系统命令，您可以使用：

lynx -dump http://4chan.org

或者

links -dump http://4chan.org

2 回答 2