4

假设我有一些 html 来自我使用 perl 保存在字符串中的文件,如下所示

<tbody>
  <tr>
    <td width="650">
    <!--MyComment-->
        <a href="http://myurl.com"><img src="myimage.png"  > </a>
   <!--MyComment-->
   </td>
   </tr>
  </tbody>
...
...
...

在我考虑使用 HTML::tree perl 模块的两条评论之间删除 HTML 代码的最佳方法是什么

4

2 回答 2

4

一种选择是使用拉解析器。这里有一个例子HTML::TokeParser。它使用两个循环,第一个用于查找您的评论的第一次出现。它打印它找到的每个标签,直到那里。第二个遍历所有标签,直到第二次出现相同类型的评论并且不打印任何内容。

内容script.pl

#!/usr/bin/env perl

use warnings;
use strict;
use HTML::TokeParser;

my $p = HTML::TokeParser->new ( shift );
while ( my $token = $p->get_token ) { 
    printf qq|%s|, $token->[0] =~ m/S|E|PI/ ? $token->[ $#$token ] : $token->[1];
    if ( $token->[0] eq q|C| && $token->[1] =~ m/(?i)MyComment/ ) { 
    ## Here begins the comment.
        while ( my $token2 = $p->get_token ) { 
            if ( $token2->[0] eq q|C| && $token2->[1] =~ m/(?i)MyComment/ ) { 
            ## Here ends the comment.
                printf qq|%s|, $token2->[1];
                last;
            }   
        }   
    }   
}

像这样运行它:

perl script.pl htmlfile

这会产生:

<html>
<head>
<title>Title</title>
</head>
<body>
<tbody>
  <tr>
    <td width="650">
    <!--MyComment--><!--MyComment-->
   </td>
   </tr>
  </tbody>
</body>
</html>
于 2013-06-23T11:39:12.240 回答
0

您也可以使用HTML::Restrict执行此操作,默认情况下会删除注释。需要注意的是,使用 HTML::Restrict,您需要明确允许您希望保留的所有 HTML 元素和属性。如果您只是想删除评论,这可能不适合您,但如果您在使用它时需要删除其他元素,则可能值得研究。

于 2013-06-24T04:33:56.453 回答