perl - 使用 Perl Mechanize 从网页中删除文本

Question

我试图从设置有一组 div、标签等的网页中只抓取测试信息。我只想从特定的 div 类中提取信息，并且再次只提取标签内的信息。

<div class="col col60 moduledetail"><table cellspacing="2" cellpadding="0" border="0" id="moduleDetail"><tr><th class="moduleCode">test<small>CRN: 33413</small></th><th>test</th></tr><tr><td class="label"><nobr>Campus</nobr></td><td><a target="_blank" href="test/">test</a></td></tr><tr><td class="label">

以上是网页中包含的内容的片段。我获取页面内容的尝试完全按照它所说的去做，它从网页中获取所有内容，我怎样才能将其缩小到这个类以及标签中的文本信息。

谢谢

score 3 · Accepted Answer

使用 HTML 解析器。这是一个使用示例HTML::TreeBuilder：

 use WWW::Mechanize;
 use HTML::TreeBuilder;

 my $mech = WWW::Mechanize->new;
 $mech->get($url);

 my $tree = HTML::TreeBuilder->new_from_content($mech->content);

 if (my $div = $tree->look_down(_tag => "div", class => "col col60 moduledetail")) {
     print $div->as_text(), "\n";
 }
 $tree->delete();

perl - 使用 Perl Mechanize 从网页中删除文本

1 回答 1

Related

Reference