javascript - DOM 操作的最佳工具？

Question

我正在开发一个网络爬虫，它将汇总来自各个网站的数据。我已经开始使用 PHP 的内置 DOM 函数，但在遇到几个问题（尤其是格式错误的标记和字符编码）后，我选择放弃 PHP。我在考虑服务器端 Javascript，但对其他建议持开放态度。如果我使用 Javascript，我应该使用哪个解释器？

score 2 · Accepted Answer

2

于 2010-01-31T07:41:54.563 回答

score 1 · Accepted Answer

Python有一个优秀的BeautifulSoup模块，它可以在大多数情况下处理损坏的标记。如果页面格式错误以至于其内置的启发式方法不起作用，它还允许使用钩子来预处理 HTML。我用 BeautifulSoup 写了几十个解析器。

还有更快的html5lib模块，也可以解析无效的 HTML。

这两个模块都有 Ruby 端口。

2 回答 2