我正在创建一个基本的屏幕抓取工具,并且已经成功完成,但由于某种原因,这部分代码不会抓取预期的 img 标签。我试图在具有指定 id 的 div 之后抓取 img src,但脚本正在抓取页面上的第一个 img 标签。例如,这个示例漫画刮板
$agent->get("http://www.blondie.com/todays_strip/");
$stream = HTML::TokeParser->new(\$agent->{content});
$tag = $stream->get_tag("div");
while ($tag->[1]{id} and $tag->[1]{id} ne 'comicpanel') {
$tag = $stream->get_tag("div");
}
my $blondie_comic = $stream->get_tag("img");
print $cgi->h1("$blondie_comic->[1]{'src'}");
上面的代码片段只是打印它遇到的第一个图像标签的 src,标志,而不是继续到漫画 img。
提前致谢。