perl - Perl 网页抓取

Question

我是 Perl 初学者，我热衷于使用 Perl 进行网页抓取。花了几个小时后，我编写了下面的代码，用于从yell.com. 该脚本运行良好，我成功收集了一条记录（第 1 页的 1/15）。

我需要您的宝贵建议，关于如何一次将第一页中的所有十家公司都刮掉，以便我可以转到其他页面的数据。

use strict;

use Data::Dumper;
use LWP::Simple; # from CPAN
use JSON qw( decode_json ); # from CPAN

use WWW::Mechanize;

my $mech = WWW::Mechanize->new();

my $header = "company_name|Address|Telphone";

open (CH, ">output.csv");

print CH "$header\n";

my $url = "http://www.yell.com/ucs/UcsSearchAction.do?keywords=Engineering+consulatants&location=United+Kingdom&scrambleSeed=13724563&searchType=&M=&bandedclarifyResults=&ssm=1";

$mech->get($url);
my $con = $mech->content();
my $res = "";

############ for company name ##########
if ( $con =~ /<a data-omniture="LIST:COMPANYNAME" href="\/biz\/ross-davy-associates-grimsby-901271213\/" itemprop="name">(.*?)<\/a>/is ) {
  $res = $1;
}
else {
  $res = "Not_Match";
}

############### for address #########
my ($add1, $add2, $add3, $add4, $add) = ("", "", "", "", "");

if ( $con =~  /<span itemprop="streetAddress">(.*?)<\/span> <span itemprop="addressLocality">(.*?)<\/span>   &#44; <span itemprop="postalCode">(.*?)<\/span> &#44; <span itemprop="addressRegion">(.*?)<\/span>/is ) {
  $add1 = $1;
  $add2 = $2;
  $add3 = $3;
  $add4 = $4;
  $add = $1.$2.$3.$$;
}
else {
  $add = "Not_Match";
}

########### telephone ##########
my $tel="";

if ( $con =~ /<li data-company-item="telephone" class="last">  Tel: <strong>(.*?)<\/strong> <\/li>/is ) {
  $tel = $1;
}
else {
  $tel = "Not_Match";
}

print "==$res===$add===$tel==\n";
print CH "$res|$add|$tel\n";

score 5 · Accepted Answer

这些要点应该有所帮助

总是 use warnings那么好use strict
始终使用三参数形式open，测试每次 open调用是否成功，用包含内置变量的字符串死掉，$!这样你就知道打开失败的原因
永远不要使用正则表达式来解析 HTML。有几个模块可以HTML::TreeBuilder::XPath正确完成工作并允许使用XPath
始终确保提取此类数据符合相关网站的服务条款。

关于最后一点，大多数网站禁止任何形式的自动访问和复制其数据。Yell.com 也不例外。他们的使用条件是这样说的。

您不能使用该网站...使用任何自动化手段来监控或复制该网站或其内容...

因此，您正在做的事情使您有可能受到法律起诉。

perl - Perl 网页抓取

1 回答 1

Related

Reference