我想从一个使用 CP1251 编码的站点获取一些信息。
use Goutte\Client;
use Nonlux\Bundle\Entity\News;
....
protected function downloadQueuePage(){
$cli = new Client();
$url=array_pop($this->_url);
$this->output->writeln("http://www.baikal-daily.ru" . $url);
$cra=$cli->request("get", "http://www.baikal-daily.ru" . $url);
$news=new News();
$news->setSiteId(1);
$news->setUrl($url);
$news->setTitle($cra->filter("#content .main h3")->text());
}
默认爬虫在某些页面上返回空节点 h1,但它存在于页面上并且布局类似是有效的。经过 Groute、Crawler 和 iconv 的神奇代码。在一种情况下,我得到:
В Улан-Удэ трёхлетний мальчик упал в открытый колодец
упал в открытый колодец
�й колодец
дец
�
而是:
В Улан-Удэ трёхлетний мальчик упал в открытый колодец
还有一次我从控制台收到很多哔声信号,它会转储接收到的页面。我怎么解决这个问题?何处寻万恶之源?