html - 如何启用 HTML::TableExtract 以识别特殊字符

Question

我试图解析包含科学记数法（希腊语等）的页面。这是页面。请注意，还有其他页面需要解析更多符号。

例如它包含以下 HTML

<td> human Interleukin 1&beta;        </td>

在哪里&beta编码希腊字母。

然而，在用HTML::TableExtract解析后，它变成了：

human Interleukin 1\x{3b2}

有没有办法让下面的代码按原样捕获原始 HTML，即 maintaning 1&beta。

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;

score 3 · Accepted Answer

它没有返回

human Interleukin 1\x{3b2}

它回来了

human Interleukin 1β

Dumper 只是将其打印为 Perl 字符串文字

"human Interleukin 1\x{3b2}"

无论如何，如果你想要原始的 HTML 而不是它所代表的文本，我相信传递keep_html => 1给构造函数就可以了。

html - 如何启用 HTML::TableExtract 以识别特殊字符

1 回答 1

Related

Reference