1

这是我正在运行的代码。

基本上我会抓取数据,并将它们放入简单的 POCO 类中。在循环结束时,我想将$newItem对象添加到$parsedItems数组中。我是 PHP 新手,这可能是范围问题吗?

<h1>Scraper Noticias</h1>

<?php

include('simple_html_dom.php');

class News {
    var $image;
    var $fechanoticia;
    var $title;
    var $description;
    var $sourceurl;

    function get_image( ) {
        return $this->image;
    }

    function set_image ($new_image) {
        $this->image = $new_image;
    }

    function get_fechanoticia( ) {
        return $this->fechanoticia;
    }

    function set_fechanoticia ($new_fechanoticia) {
        $this->fechanoticia = $new_fechanoticia;
    }

    function get_title( ) {
        return $this->title;
    }

    function set_title ($new_title) {
        $this->title = $new_title;
    }

    function get_description( ) {
        return $this->description;
    }

    function set_description ($new_description) {
        $this->description = $new_description;
    }

    function get_sourceurl( ) {
        return $this->sourceurl;
    }

    function set_sourceurl ($new_sourceurl) {
        $this->sourceurl = $new_sourceurl;
    }
}

// Create DOM from URL or file
$initialPage = file_get_html('http://www.uvm.cl/noticias_mas.shtml');


// Declare variable to hold all parsed news items.
$parsedNews = array();

// Since the University blog page has 262 pages, we'll iterate through that.
for ($i = 2; $i <= 5; $i++) {
    $url = "http://www.uvm.cl/noticias_mas.shtml?AA_SL_Session=34499aef1fc7a296fb666dcc7b9d8d05&scrl=1&scr_scr_Go=" . $i;
    $page = file_get_html($url);
    parse_page_for_news($page);
}

echo "<h1>Final Count:" . count($parsedNews) . "</h1>";

// Function receives an HTML Dom object, and the library works against that single HTML object.
function parse_page_for_news ($page) {

    foreach($page->find('#cont2 p') as $element) {

        $newItem = new News;

        // Parse the news item's thumbnail image.
        foreach ($element->find('img') as $image) {
            $newItem->set_image($image->src);
            //echo $newItem->get_image() . "<br />";
        }

        // Parse the news item's post date.
        foreach ($element->find('span.fechanoticia') as $fecha) {
            $newItem->set_fechanoticia($fecha->innertext);
            //echo $newItem->get_fechanoticia() . "<br />";
        }

        // Parse the news item's title.
        foreach ($element->find('a') as $title) {
            $newItem->set_title($title->innertext);
            //echo $newItem->get_title() . "<br />";
        }

        // Parse the news item's source URL link.
        foreach ($element->find('a') as $sourceurl) {
            $newItem->set_sourceurl("http://www.uvm.cl/" . $sourceurl->href);
        }

        // Parse the news items' description text.
        foreach ($element->find('a') as $link) {
            $link->outertext = '';
        }

        foreach ($element->find('span') as $link) {
            $link->outertext = '';
        }

        foreach ($element->find('img') as $link) {
            $link->outertext = '';
        }

        $newItem->set_description($element->innertext);

        // Add the newly formed NewsItem to the $parsedNews object.
        $parsedNews[] = $newItem;

        print_r($newItem);
        echo "<br /><br /><br />";

    }
} 

?>

在我目前对语言的理解中,由于$parsedItems对象是在函数之外声明的,不应该正确添加它吗?

为什么我的 count() 调用会返回 0,就好像它没有对象一样?

4

5 回答 5

5

这确实是一个范围界定问题。这将不起作用:

$foo= array();

function bar()
{
    $foo[] = 'baz';
}

bar();
var_dump($foo); // will output an empty array

您想要做的是以下内容:

$parsedNews = array();

// loop through the items as you are doing now
for ($i = 2; $i <= 5; $i++) {
    $url = "http://www.uvm.cl/noticias_mas.shtml?AA_SL_Session=34499aef1fc7a296fb666dcc7b9d8d05&scrl=1&scr_scr_Go=" . $i;
    $page = file_get_html($url);
    $newItems = parse_page_for_news($page);

    $parsedNews = array_merge($parsedNews, $newItems);
}

并让parse_page_for_news函数parsedNews在循环完成后返回:

return $parsedNews;

请永远不要使用global关键字,除非您有充分的理由,否则请不要通过引用传递。

于 2012-07-27T19:03:26.903 回答
3

不,您误解了Variable Scope的概念。

考虑以下:

$foo = "bar";

function change_foo($new_foo) {
    $foo = $new_foo;
}

change_foo("New Foo!");
echo $foo;

在这种情况下,输出仍然是"bar". 那是因为$fooinside ofchange_foo()包含在函数范围内

但是,如果我们要做这样的事情(正确的方法):

$foo = "bar";

function change_foo($new_foo) {
    $foo = $new_foo;
    return $foo;
}

$foo = change_foo("New Foo!");
echo $foo;

结果确实是New Foo!

另一种(较少推荐的)方法如下:

$foo = "bar";

function change_foo(&$old_foo, $new_foo) {
    $old_foo = $new_foo;
}

change_foo($foo, "New Foo!");
echo $foo;

不推荐这样做的原因是因为从$foo更改的代码中并不明显(当然,由于我给函数起的正确名称,这似乎足够明显)。

这样做最糟糕的方法是$foo进入全局状态。

$foo = "bar";

function change_foo($new_foo) {
    global $foo;
    $foo = $new_foo;
}

change_foo("New Foo!");
echo $foo;

通过全球化$foo变量,函数中的任何人和每个人都可以访问和更改它。如果函数的名称不是那么明显,我们永远不会知道它改变了值$foo

于 2012-07-27T19:11:23.543 回答
2

在我目前对该语言的理解中,由于 $parsedItems 对象是在函数之外声明的,不应该正确添加它吗?

不,您需要将它传递给函数,就像使用 C# 一样。

于 2012-07-27T18:55:03.437 回答
0

虽然你可以添加

global $parsedNews

在你的函数声明里面。如果您需要能够修改它并将修改后的值反映在全局范围中,我认为通过引用将项目传递给函数是更好的编码实践。所以你可以简单地把你的函数签名改成这个

function parse_page_for_news ($page, &$parsedNews)
于 2012-07-27T18:55:19.250 回答
-6

您的News对象没有括号。它应该是一个构造函数,如下所示:

$newItem = new News();

此外,您的News类需要一个构造函数。我不确定是否通过不声明一个,它会自动被赋予一个默认构造函数(即,没有任何参数)

于 2012-07-27T18:51:24.780 回答