1

我正在尝试使用 PHP 中的 DOMDocument 抓取网页并从中提取文本。不幸的是,HTML 很难使用。例如,它看起来像这样:

<p class="thisClass">
    <a href="/a/link">Link</a>
    <br>
    The text I need: 0613
    <br>
</p>

我不确定如何提取“我需要的文本:0613”,因为它没有包含在自己的标签中。正则表达式是解决这个问题的最好方法吗?我知道该行的格式将始终是“我需要的文本:”后跟一个四位数。

4

1 回答 1

2

I know that the format of the line will always be "The text I need: " followed by a four digit number.

在这种情况下,您可能可以使用:

preg_match('/The text I need:\s*(\d+)/i', $str, $matches);

您所需的号码将在 中提供$matches[1]

PS:然而,为了可靠地解析 HTML 页面,请使用 DOM 解析器。

于 2013-10-26T15:42:53.363 回答