php - PHP 简单的 HTML DOM 解析器给出错误的数据

Question

我正在使用PHP Simple HTML DOM来解析具有以下 HTML 的网页。注意每个<li>.

<li>
  <span class="name">
    <a href="">Link</a> asdasd
  </span>
  </span>
</li>
<li>
  <span class="name">
    <a href="">Link</a> asdasd2
  </span>
  </span>
</li>

我的查询是：

$lis = $dom->find('li');
foreach ($lis as $li) {
  $spans = $li->find('span');
  foreach ($spans as $span) {
    echo $span->plaintext."<br>";
  }
}

我的输出是：

Link asdasd 
Link asdasd2
-----------
Link asdasd2 
-----------

如您所见，find('span')找到了两个跨度作为第一个的孩子，<li>并从它可以找到的下一个中获取值（即使它是下一个的孩子<li>）。删除尾随可以解决问题。

我的问题是：

为什么会这样？
我该如何解决这个特殊情况？其他一切都很好，我无法对我的脚本进行重大更改。如果需要，我可以轻松更改 DOM 查询。

我正在考虑计算开始和结束标签，如果它们太多，则剥离一个。既然他们总是s，有没有一种聪明的方法来用正则表达式检查它？

score 1 · Accepted Answer

$newTxt = preg_replace('/\<\/span\>[\S]*\<\/span\>/','</span>',$txt);

方法 'find(x)' 是一个重载函数，可以返回以下等价物：

$e->getElementById(x);
$e->getElementsById(x);
$e->getElementByTagName(x); and
$e->getElementsByTagName(x);

在您的第一次通话中，它使用最后一次通话。在第三种可能性的第二个 $li 中。根据 API，这可能是一种优化您所问问题的方法。我猜您在 API 中发现了一个错误，因为您在这两种情况下都要求使用第三个调用：

$e->getElementByTagName();

score 1 · Accepted Answer

1) Simple 试图通过添加某处来修复你的额外内容。所以现在你有一个不应该存在的额外跨度。为了记录，DomDocument会做同样的事情，尽管可能以一种更可预测的方式。

2) 简化：

foreach ($dom->find('li > span') as $span) {
  echo $span->plaintext."<br>";
}
//     Link asdasd    <br>     Link asdasd2    <br>

现在你已经告诉它你只想要span那个是 a 的孩子的li。更好的是，执行以下操作：

foreach ($dom->find('span.name') as $span) {
  echo $span->plaintext."<br>";
}

使用这些属性，这就是它们的好处。

php - PHP 简单的 HTML DOM 解析器给出错误的数据

2 回答 2

Related

Reference