1

我试图解析包含科学记数法(希腊语等)的页面。这是页面。请注意,还有其他页面需要解析更多符号。

例如它包含以下 HTML

<td> human Interleukin 1&beta;        </td>

在哪里&beta编码希腊字母。

然而,在用HTML::TableExtract解析后,它变成了:

human Interleukin 1\x{3b2} 

有没有办法让下面的代码按原样捕获原始 HTML,即 maintaning 1&beta

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;
4

1 回答 1

3

它没有返回

human Interleukin 1\x{3b2} 

它回来了

human Interleukin 1β

Dumper 只是将其打印为 Perl 字符串文字

"human Interleukin 1\x{3b2}"

无论如何,如果你想要原始的 HTML 而不是它所代表的文本,我相信传递keep_html => 1给构造函数就可以了。

于 2013-01-22T05:25:41.787 回答