我想从网页中提取信息。不幸的是,据我所知,该网站 (4chan) 没有公共 API。
什么是从 HTML 文档中提取特定数据的好库?我更喜欢在 UNIX 系统上运行的免费软件库。
编辑:基本上我想从 4chan 获取帖子和图片。该网页不是有效的 HTML(并且没有 doctype),因此解析器不应该太严格。
我想从网页中提取信息。不幸的是,据我所知,该网站 (4chan) 没有公共 API。
什么是从 HTML 文档中提取特定数据的好库?我更喜欢在 UNIX 系统上运行的免费软件库。
编辑:基本上我想从 4chan 获取帖子和图片。该网页不是有效的 HTML(并且没有 doctype),因此解析器不应该太严格。
您正在寻找的是 HTML Dom Parse。
上一个问题的这个链接应该可以帮助你。也看看这个问题
没错,有很多用于解析 html 数据的库。例如,如果您使用 Perl,则可以使用 HTML::Parse。
如果您只想要一个快速的结果并且您同意使用系统命令,您可以使用:
lynx -dump http://4chan.org
或者
links -dump http://4chan.org