php - 如何使用 WGET 或 Perl 下载使用 PHP/JavaScript 内容编码的 HTML

Question

我有一个要下载和解析的 URL：

http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996

问题是当我通过wget以下方式使用 unix 下载时：

$ wget [the above url]

它给了我与我在浏览器上看到的内容不同的内容（即，基因列表不存在）。

以编程方式执行此操作的正确方法是什么？

score 1 · Accepted Answer

我刚刚使用 PHP 进行了测试，并将其与基因列表一起拉出来就好了

<?php
echo file_get_contents('http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996');
?>

你有访问 PHP 的权限吗

score 1 · Accepted Answer

#/usr/bin/perl

use WWW::Mechanize;
use strict;
use warnings;

my $url = "http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996";

my $mech = WWW::Mechanize->new();
$mech->agent_alias("Windows IE 6");

$mech->get($url);
#now you have access to the HTML code via $mech->content();

强烈建议处理 HTML 代码use HTML::TreeBuilder::XPath（或其他 HTML 解析模块）

php - 如何使用 WGET 或 Perl 下载使用 PHP/JavaScript 内容编码的 HTML

2 回答 2

Related

Reference