4

我正在访问一些网站,我需要提取一些数据。更具体地说 - 从这部分:

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

我需要提取“名称”部分。我听说正则表达式不是最好的解决方案,所以我想问一下访问我需要的这条数据的最佳方法是什么。

4

2 回答 2

2

使用 Html 解析库,他们修复了格式错误的 Html,使导航文档以查找和更新元素变得容易。这是指向 Java/Groovy 实现列表的链接:

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

看起来NekoHTMLTagSoup很流行,但我没有使用过这两种方法或 Groovy。但我在其他语言中使用过 Html 解析器。

于 2010-09-19T03:14:11.570 回答
2

在使用 NekoHTML 或 TagSoup 解析网站后(应该注意您的输入字段标签未关闭的事实),我建议使用 xpath 表达式:

//input[@type='hidden'][@value=1]/@name

在 groovy 中,您将以GPath的形式应用它。

于 2010-10-04T03:49:13.970 回答