-1

我正在尝试从 HTML 页面解析(窃取)大量信息。很多信息都在块中。比如:用户名:1​​.age 2.gender 3.country 等等。这是一个非常大的块,因此我的正则表达式模式很大。我所有的正则表达式开发工具都有一个用于模式的单行和一个用于文本的文本框。这使得开发这种大型模式变得不可能。我应该怎么做才能开发大型正则表达式模式或者我应该避免它们?

4

2 回答 2

2

HTML 页面基本上是一个有效的 DOM 结构。所以最好使用 DOM 解析器而不是正则表达式来获取所需的信息。您可以探索JSoup:Java HTML 解析器。

于 2013-10-07T16:51:54.120 回答
0

使用为 HTML 描述的解析规则从 text/html 资源生成 DOM 树。这些规则共同定义了所谓的 HTML 解析器。

于 2013-10-07T16:52:35.750 回答