symfony - 如何从元素中获取文本，不包括其中的一些其他元素

Question

我domCrawler在 symfony 框架中使用。我使用它从 html 中爬取了内容。现在我需要获取带有 ID 的元素内的文本。我可以使用下面的代码来验证文本：

$nodeValues = $crawler1->filter('#idOfTheElement')->each(function (Crawler $node, $i) {
            return $node->text();
        });

element( #idOfTheElement) 包含一些跨度、按钮等（也有一些类）。我不想要那些里面的内容。如何从元素中获取文本，不包括其中的一些其他元素。

注意：我要获取的文本没有任何其他包装，除了元素#idOfTheElement

Html 如下所示：

<li id='#idOfTheElement'>Tel :<button data-pjtooltip="{dtanchor:'tooltipOpposeMkt'}" class="noMkt JS_PJ" type="button">text :</button><dl><dt><a name="tooltipOpposeMkt"></a></dt><dd><div class="wrapper"><p><strong>Signification des pictogrammes</strong></p><p>Devant un numéro, le picto <img width="11" height="9" alt="" src="something"> signale une opposition aux opérations de marketing direct.</p><span class="arrow">&nbsp;</span></div></dd></dl>12 23 45 88 99</li>

score 4 · Accepted Answer

您可以获取元素 html，然后摆脱标签

preg_replace('@<(\w+)\b.*?>.*?</\1>@si', '', $node->html());

score 1 · Accepted Answer

首先删除子节点：

$crawler1->filter('#idOfTheElement')->each(function (Crawler $crawler) {
        foreach ($crawler as $node) {
            $node->parentNode->removeChild($node);
        }
    });

然后获取没有子节点的文本：

$cleanContent = $crawler1->filter('#idOfTheElement')->text();

symfony - 如何从元素中获取文本，不包括其中的一些其他元素

2 回答 2

Related

Reference