html - perl 使用正则表达式在 html 标签之间提取文本

Question

我是 Perl 的新手，我试图提取<li> </li>字符串中所有标签之间的文本，并使用正则表达式或拆分/连接将它们分配到一个数组中。

例如

my $string = "<ul>
                  <li>hello</li>
                  <li>there</li>
                  <li>everyone</li>
              </ul>";

所以这段代码...

foreach $value(@array){
    print "$value\n";
}

...导致此输出：

hello
there
everyone

score 7 · Accepted Answer

注意：不要使用正则表达式来解析 HTML。

第一个选项是使用HTML::TreeBuilder完成的，它是许多可供使用的 HTML 解析器之一。您可以访问上面提供的链接并阅读文档并查看给出的示例。

use strict;
use warnings;
use HTML::TreeBuilder;

my $str 
   = "<ul>"
   . "<li>hello</li>"
   . "<li>there</li>"
   . "<li>everyone</li>"
   . "</ul>"
   ;

# Now create a new tree to parse the HTML from String $str
my $tr = HTML::TreeBuilder->new_from_content($str);

# And now find all <li> tags and create an array with the values.
my @lists = 
      map { $_->content_list } 
      $tr->find_by_tag_name('li');

# And loop through the array returning our values.
foreach my $val (@lists) {
   print $val, "\n";
}

如果您决定在这里使用正则表达式（我不推荐）。你可以做类似..

my $str
   = "<ul>"
   . "<li>hello</li>"
   . "<li>there</li>"
   . "<li>everyone</li>"
   . "</ul>"
   ;

my @matches;
while ($str =~/(?<=<li>)(.*?)(?=<\/li>)/g) {
  push @matches, $1;
}

foreach my $m (@matches) {
   print $m, "\n";
}

输出：

hello
there
everyone

score 1 · Accepted Answer

注意： 不要使用正则表达式来解析 HTML。

hwnd已经提供了一种 HTML Parser 解决方案。

但是，对于基于 css 选择器的更现代的 HTML 解析器，您可以查看Mojo::DOM. 有一个内容丰富的 8 分钟介绍视频Mojocast episode 5。

use strict;
use warnings;

use Mojo::DOM;

my $html = do {local $/; <DATA>};

my $dom = Mojo::DOM->new($html);

for my $li ($dom->find('li')->text->each) {
    print "$li\n";
}

__DATA__
<ul>
  <li>hello</li>
  <li>there</li>
  <li>everyone</li>
</ul>

输出：

hello
there
everyone

html - perl 使用正则表达式在 html 标签之间提取文本

2 回答 2

Related

Reference