我试图解析包含科学记数法(希腊语等)的页面。这是页面。请注意,还有其他页面需要解析更多符号。
例如它包含以下 HTML
<td> human Interleukin 1β </td>
在哪里&beta
编码希腊字母。
然而,在用HTML::TableExtract解析后,它变成了:
human Interleukin 1\x{3b2}
有没有办法让下面的代码按原样捕获原始 HTML,即 maintaning 1&beta
。
use HTML::TableExtract;
use Data::Dumper;
# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";
my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;