0

我查看了一些 Java HtmlParser(Jericho、HtmlCLeaner、...),但找不到在检索页面时将 html 框架标记替换为实际源代码的功能。

有谁知道这样做的任何解析器?

回答:

像Phani表示我需要一个Html Scraper(不是解析器,更清洁)

HtmlUnit似乎可以解决问题:http: //htmlunit.sourceforge.net/frame-howto.html

4

1 回答 1

0

从您的用例来看,您需要刮板而不是清洁器。

清洁剂——通常是脏的、形状不良的,不适合进一步加工。对于此类文档的任何严重消费,首先需要清理混乱,并为标签、属性和普通文本排序。

Scraper - 以编程方式阅读页面并编辑 html 页面。

http://sourceforge.net/projects/htmlscraper/

于 2012-04-12T09:43:26.240 回答