0

我想从一个使用 CP1251 编码的站点获取一些信息。

use Goutte\Client;
use Nonlux\Bundle\Entity\News;
....
protected function downloadQueuePage(){
    $cli = new Client();
    $url=array_pop($this->_url);
    $this->output->writeln("http://www.baikal-daily.ru" . $url);
    $cra=$cli->request("get", "http://www.baikal-daily.ru" . $url);
    $news=new News();
    $news->setSiteId(1);
    $news->setUrl($url);
    $news->setTitle($cra->filter("#content .main h3")->text());
 }

默认爬虫在某些页面上返回空节点 h1,但它存在于页面上并且布局类似是有效的。经过 Groute、Crawler 和 iconv 的神奇代码。在一种情况下,我得到:

В Улан-Удэ трёхлетний мальчик упал в открытый колодец
упал в открытый колодец
�й колодец
дец
�

而是:

В Улан-Удэ трёхлетний мальчик упал в открытый колодец

还有一次我从控制台收到很多哔声信号,它会转储接收到的页面。我怎么解决这个问题?何处寻万恶之源?

4

0 回答 0