我有一个关于解析 HTML 页面,特别是论坛的问题,我想解析包含某些帖子标准的论坛或线程,我还没有定义算法,因为我之前只解析过结构文本格式,一个用例可能是复制和粘贴每个线程手动进入程序,或者插入一个 URL 像 http://www.forums.com/forum/showthread.php?t=46875&page=3让程序解析页面
鉴于这一切,我想知道:
- 是否可以解析 HTML 页面上的论坛主题?
- 这样做的最佳/最快/最简单的语言是什么?
- 如果我更喜欢 Java,我需要哪些工具/库?
- 还有什么我应该考虑的吗?