我正在解析一个带有HTML::TokeParser::Simple
. HTML 文件的内容如下所示。我的问题是,我试图忽略 JavaScript 以文本内容的形式显示。例子:
use HTML::TokeParser::Simple;
my $p = HTML::TokeParser::Simple->new( 'test.html' );
while ( my $token = $p->get_token ) {
next unless $token->is_text;
print $token->as_is, "\n";
}
这将打印输出,如下所示:
Test HTML
<!--
var form_submitted = 0;
function submit_form() {
[..]
}
//-->
实际的 HTML 文档内容:
<html>
<span>Test HTML</span>
<script type="text/javascript">
<!--
var form_submitted = 0;
function submit_form() {
[..]
}
//-->
</script>
</html>
如何忽略JavaScript
显示的标签内容。