0

我有一个这样的字符串(由 HTML 源代码制成):

<tr>
  <td>
    <tr>First</tr>
  </td>
</tr>
<tr>
  <td>Second</td>
</tr>
<tr>
  <td>
    <tr>
      <td>Upper</td>
    </tr>
    <tr>
      <td>Lower</td>
    </tr>
  </td>
</tr>

但是在一行中-我将其分开以使其看起来更好。我想要实现的是一个正则表达式,它将捕获该表的整行,因此匹配项是:

<td>
  <tr>First</tr>
</td>

,

<td>Second</td>

,

<td>
  <tr>
    <td>Upper</td>
  </tr>
  <tr>
    <td>Lower</td>
  </tr>
</td>

最简单的选项:

  • <tr>.*</tr>- 抓住一切
  • <tr>.*?</tr>- 从第一个<tr>到第一个</tr>

我希望它捕获相应的标签。有人可以帮忙吗?

4

1 回答 1

1

你可以使用 html 解析引擎jsoup并运行类似这样的东西来从你的表中提取行

String url = "a.html";
Document doc = Jsoup.connect(url).get();

Elements rows = doc.select("table tr");
于 2013-06-13T13:07:33.253 回答