我们正在尝试像这样解析 HTML:
<li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617843">مستخدمو "كهرباء لبنان": الاضراب مستمر حتى إقرار موازنة 2013 الخاصة بنا</a></li>
<li><a class="newsMarquee" href="http://www.lebanonfiles.com/news/617840">اجتماع برئاسة محافظ الجنوب بحث في اوضاع النازحين</a></li>
我们得到这个结果:
ÃÃ'ÚÃÉ ÇááÌÇä ÃÃ'ÓÊ ËáÇËÉ ãÔÇÃ'ÃÚ ÈÆÆÃÉ ãÓÊÎÃãæ “ßåÃ'ÈÇà áÈäÇä”:ÇáÇÖÃ'ÇÈ ãÓÊãÃ' ÃÊì ÅÞÃ'ÇÃ' à £Ã¦Ã‡Ã'äÉ 2013 ÇáÎÇÕÉ 銂</p>
我们使用过:有header("Content-Type: text/html; charset=utf-8");
什么建议吗?
这是代码:
<?php
echo '<html><head>';
header("Content-Type: text/html; charset=utf-8");
echo '</head>';
echo '<body>';
$dom = new DOMDocument('1.0');
@$dom->loadHTMLFile($url);
$params = $dom->getElementsByTagName('div'); // Find Sections
$k=0;
foreach ($params as $param) //go to each Article 1 by 1
{
if($params->item($k)->getAttribute('class') == 'no-js')
{
$params2 = $params->item($k)->getElementsByTagName('a');
$i=0;
while($params2->item($i)->getAttribute('class') == 'newsMarquee')
{
if($params2->item($i)->getAttribute('class') != 'newsMarquee')
break;
else
{
echo '' .$params2->item($i)->nodeValue. '<br/>';
//echo 'Link: '.$params2->item($i)->getAttribute('href').'<br/><br/>';
$i++;
}
}
}
$k++;
}
echo '</body>';
echo '</html>';
?>