3

嗨,我试图从 url 获取主机。

sub scrape {
my @m_error_array;
my @m_href_array;
my @href_array;
my ( $self, $DBhost, $DBuser, $DBpass, $DBname ) = @_;
my ($dbh, $query, $result, $array);
my $DNS = "dbi:mysql:$DBname:$DBhost:3306";
$dbh = DBI->connect($DNS, $DBuser, $DBpass ) or die $DBI::errstr;
if( defined( $self->{_process_image} ) && ( -e 'href_w_' . $self->{_process_image} . ".txt" ) ) {
    open  ERROR_W, "error_w_" . $self->{_process_image} . ".txt";
    open  M_HREF_W, "m_href_w_" . $self->{_process_image} . ".txt";
    open  HREF_W, "href_w_" . $self->{_process_image} . ".txt";
    @m_error_array = ( split( '|||', <ERROR_W> ) );
    @m_href_array = ( split( '|||', <M_HREF_W> ) );
    @href_array = ( split( '|||', <HREF_W> ) );
    close ( ERROR_W );
    close ( M_HREF_W );
    close ( HREF_W );
}else{
    @href_array = ( $self->{_url} );
}
my $z = 0;
while( @href_array ){
    if( defined( $self->{_x_more} ) && $z == $self->{_x_more} ) {
        last;
    }
    if( defined( $self->{_process_image} ) ) {
        $self->write( 'm_href_w', @m_href_array );
        $self->write( 'href_w', @href_array );
        $self->write( 'error_w', @m_error_array );
    }
    $self->{_link_count} = scalar @m_href_array;
    my $href = shift( @href_array );
    my $info = URI->new($href);
    my $host = $info->host;
    $host =~ s/^www\.//;
    $result = $dbh->prepare("INSERT INTO `". $host ."` (URL) VALUES ('$href')");
    if( ! $result->execute() ){
        $result = $dbh->prepare("CREATE TABLE `" . $host . "` ( `ID` INT( 255 ) NOT NULL AUTO_INCREMENT , `URL` VARCHAR( 255 ) NOT NULL , PRIMARY KEY ( `ID` )) ENGINE = MYISAM ;");
        $result->execute()
    }
    $self->{_current_page} = $href;
    my $response = $ua->get($href);
    my $responseCode = $response->code;
    print $responseCode;
}

}

走向终点线my $host = $info->host;正在投掷Can't locate object method "host" via package "URI::_generic"

谁能解释一下?

问候,

菲尔

4

2 回答 2

10

URI->newURI根据您给它的 url 的方案创建 的子类的实例。这些子类可能是URI::http, URI::file,URI::mailto或完全不同的东西。如果 URI 没有您给它的那种 url 的专门子类,它将创建一个URI::_generic.

这些 URI 子类中的每一个都有不同的方法。URI::http碰巧有一个host方法,但大多数其他人没有。您正在调用->host不是 aURI::http或类似的东西,因此没有host方法。

您可能希望传递给的所有字符串URI->new都是 http url。情况似乎并非如此,因此您可能需要检查您的数据。否则,如果您确实要处理非 http url,则应确保在调用该实例之前确实存在该实例的方法,例如使用->canor ->isa

于 2010-09-21T04:58:01.147 回答
1

换个说法 - URI 尝试猜测方案,如果 URL 的格式不正确,则将是没有这些方法的方案。

您所需要的只是一张支票,例如:

if($uri->scheme ne 'http'){
    die "URL '$url' was not http\n";
}

即使没有找到方案,方案也会在那里。它只是没有价值。

于 2014-10-22T04:25:11.207 回答