perl - HTML::Table 提取 HTTPS 站点

Question

我创建了一个 perl 脚本来使用 HTML::TableExtract 从网站上的表中抓取数据。

它可以很好地为不安全的站点（即 HTTP 站点）转储表数据，但是当我尝试 HTTPS 站点时，它不起作用（tables_report 行只是打印空白..它应该打印一堆表数据）。

但是，如果我获取该 HTTPS 页面的内容，并将其保存到一个 html 文件，然后将其发布到一个不安全的 HTTP 站点上（并将我的内容更改为指向该 HTTP 页面），则该脚本将按预期工作。

任何人都知道我怎样才能让它通过 HTTPS 工作？

#!/usr/bin/perl
use lib qw( ..); 
use HTML::TableExtract; 
use LWP::Simple; 
use Data::Dumper; 
# DOESN'T work:
my $content = get("https://datatables.net/"); 
# DOES work:
#   my $content = get("http://www.w3schools.com/html/html_tables.asp"); 
my $te = HTML::TableExtract->new();
$te->parse($content);
print $te->tables_report(show_content=>1);
print "\n";
print "End\n";

上面提到的 $content 网站只是示例。这些并不是我真正要提取的网站，但它们的工作方式就像我真正想要抓取的网站一样。

我想一个选择是让我先使用 perl 在本地下载页面并从那里提取，但我宁愿不这样做，如果有更简单的方法可以做到这一点（任何有帮助的人，请不要花费任何疯狂的金额是时候想出一个复杂的解决方案了！）。

score 1 · Accepted Answer

该问题与 LWP::Simple 使用的用户代理有关，该用户代理在该站点停止。使用LWP::UserAgent并设置允许的用户代理，如下所示：

use strict;
use warnings;
use LWP::UserAgent;

my $ua = LWP::UserAgent->new;
my $url = 'https://datatables.net/';

$ua->agent("Mozilla/5.0");  # set user agent
my $res = $ua->get($url);   # send request

# check the outcome
if ($res->is_success) {
   # ok -> I simply print the content in this example, you should parse it
   print $res->decoded_content;
}
else {
   # ko
   print "Error: ", $res->status_line, "\n";
}

score 0 · Accepted Answer

my $url = "https://ohsesfire01.summit.network/reports/slices";
my $user = 'xxxxxx';
my $pass = 'xxxxxx';
my $ua = new LWP::UserAgent;
my $request = new HTTP::Request GET=> $url;
# authenticate
$request->authorization_basic($user, $pass);

my $page = $ua->request($request);

score 0 · Accepted Answer

最后，Miguel 和 Chankey 的回答提供了我的解决方案。Miguel 构成了我的大部分代码，所以我选择它作为答案，但这是我的“最终”代码（还有很多事情要做，但这就是我想不通的全部......其余的应该没问题）。

Miguel/Chankey 都没有提到我的工作，但他们让我完成了 99% 的工作。然后我只需要弄清楚如何解决“证书验证失败”错误。我马上用 Miguel 的方法找到了答案，所以最后我主要使用了他的代码，但两个反应都很棒！

#!/usr/bin/perl

use lib qw( ..); 
use strict;
use warnings;
use LWP::UserAgent;

use HTML::TableExtract; 
use LWP::RobotUA;
use Data::Dumper; 

my $ua = LWP::UserAgent->new(
   ssl_opts => { SSL_verify_mode => 'SSL_VERIFY_PEER' },
);
my $url = 'https://WebsiteIUsedWasSomethingElse.com';

$ua->agent("Mozilla/5.0");  # set user agent
my $res = $ua->get($url);   # send request

# check the outcome
if ($res->is_success) 
{   
   my $te = HTML::TableExtract->new();
   $te->parse($res->content);
   print $te->tables_report(show_content=>1);
}
else {
   # ko
   print "Error: ", $res->status_line, "\n";
}

score 0 · Accepted Answer

这是因为datatables.net正在阻止LWP::Simple请求。您可以使用以下代码确认这一点：

#!/usr/bin/perl
use strict;
use warnings;
use LWP::Simple; 
print is_success(getprint("https://datatables.net/"));

输出：

$ perl test.pl 
403 Forbidden <URL:https://datatables.net/>

您可以尝试使用LWP::RobotUA。下面的代码对我来说很好。

#!/usr/bin/perl
use strict;
use warnings;

use LWP::RobotUA;
use HTML::TableExtract;

my $ua = LWP::RobotUA->new( 'bot_chankey/1.1', 'chankeypathak@stackoverflow.com' );
$ua->delay(5/60); # 5 second delay between requests
my $response = $ua->get('https://datatables.net/');
if ( $response->is_success ) {
    my $te = HTML::TableExtract->new();
    $te->parse($response->content);
    print $te->tables_report(show_content=>1);
}
else {
    die $response->status_line;
}

perl - HTML::Table 提取 HTTPS 站点

4 回答 4

Related

Reference