九年前,当我开始使用 Perl 解析 HTML 和自由文本时,我阅读了经典的使用 Perl 进行数据处理。有人知道 David 是否计划更新这本书,或者是否有类似的书籍或网页解释了XML-Twig、Regexp-Grammars等新的解析模块?
我认为在过去的九年里,有些模块仍然和以前一样好,有些是最新的,但有新的有趣的方法,有些有更好的替代品。例如,Parse-RecDescent仍然是自由文本解析的唯一选择,还是 Perl 6 影响的 Regexp-Grammars会在许多情况下替代它?
我已经有四年没有使用 Perl 进行有效的 HTML、XML 或自由文本数据挖掘了,所以我在这方面的工具包可能有点过时了。因此,对于 HTML 和 DOM 操作、链接提取/验证、Web 测试(如 Mechanize)、XML 操作和自由文本解析的任何反馈,来自与该领域当前 CPAN 模块保持同步的人们都将非常受欢迎。
我的工具包中添加了一些新功能:
仍在我的工具箱中:
- HTML-TableExtract # 自 2006 年以来未更新
- WWW-机械化
- Parse-RecDescent
- HTML-TokeParser
- URI转义
- [更多的...]