1

我只想保留文件名(不是完整路径)并将文件名添加到一些 bbcode。

这是要转换的 HTML:

<a href=/path/to/full/image.jpg rel=prettyPhoto><img rel=prettyPhoto src=/path/to/thumb/image.jpg /></a>

注意我不能有 rel="foo" (没有双引号)..

这是我在 PERL 中执行转换的内容:

s/\<a href=(.+?)\ rel=prettyPhoto\>\<img rel=prettyPhoto src=(.+?) \/>\<\/a\>/\[box\]$1\[\/box\]/gi;

这会将 HTML 转换为:

[box]/path/to/image.jpg[/box]

但这就是我想要的结果:

[box]image.jpg[/box]

HTML 必须保持不变。那么如何更改我的 PERL 以使 $1 仅包含文件名?

4

6 回答 6

1
s/\<a href=(?:.*\/)?(.+?)\ rel=prettyPhoto\>\<img rel=prettyPhoto src=(.+?) \/>\<\/a\>/\[box\]$1\[\/box\]/gi;

(?:.*\/)?

将匹配以 / 结尾的最长部分。决赛?使这成为可选的。

于 2011-03-03T15:29:04.650 回答
1

我不知道它是否处理边缘案例,但我让它工作:

#!/usr/bin/perl

use strict;
use warnings;

my $in = '<a href=/path/to/full/image.jpg rel=prettyPhoto><img rel=prettyPhoto src=/path/to/thumb/image.jpg /></a>';

$in =~ s/\<a href=.*?([^\/]+)\ rel=prettyPhoto\>\<img rel=prettyPhoto src=(.+?) \/>\<\/a\>/\[box\]$1\[\/box\]/gi;

print $in . "\n";

但是,您难道不想做类似的事情:

#!/usr/bin/perl

use strict;
use warnings;

use HTML::TokeParser;
my $p = HTML::TokeParser->new(\*DATA);

my $token = $p->get_tag("a");
my $token_attribs = $token->[1];
my $bb_code;

if ($token_attribs->{rel} eq 'prettyPhoto') {

  my $url = $token_attribs->{href};
  my @split_path = split(m'/', $url);

  $bb_code = '[box]' . $split_path[-1] . '[/box]';
}

print $bb_code . "\n";
__DATA__
<a href=/path/to/full/image.jpg rel=prettyPhoto><img rel=prettyPhoto src=/path/to/thumb/image.jpg /></a>

使用 HTML 解析器(例如HTML::TokeParser,在文档中有示例)为您查找 url?比手动对 HTML 进行正则表达式要好得多。

于 2011-03-03T15:38:51.280 回答
1

我建议您使用正确的工具来完成这项工作,例如:

use HTML::PullParser;
use URI;

die '' . $! || $@ 
    unless my $p = HTML::PullParser->new(
      doc         =>  $doc_handle
    , start       => 'tag, attr'
    , report_tags => ['a']
    );

my @file_names;
while ( my $t = $p->get_token ) { 
    next unless $t    and my ( $tag_name, $attr ) = @$t;
    next unless $attr and my $href = $attr->{href};
    next unless my $uri = URI->new( $attr->{href} );
    next unless my $path = $uri->path;
    push @file_names, substr( $path, rindex( $path, '/' ) + 1 );
    # or it's safe to use a regex here:
    # push @file_names, $path =~ m{([^/]+)$};
}

Data::Dumper->Dump( [ \@file_names ], [ '*file_names' ] );

朋友不要让朋友用正则表达式解析 HTML。

于 2011-03-03T16:26:21.870 回答
0

这显然在正则表达式中不起作用,但您可以在 $1 上运行split函数并获取结果数组的最后一个元素。

于 2011-03-03T15:33:07.480 回答
0

不要捕捉整个事情。将非捕获组与(?:...). 这样,您可以进一步细分匹配的部分和捕获的部分。

于 2011-03-03T15:31:15.563 回答
0

关于什么:

s/\<a href=.*\/(.+?)\ rel=prettyPhoto\>\<img rel=prettyPhoto src=(.+?) \/>\<\/a\>/\[box\]$1\[\/box\]/gsi;
于 2011-03-03T15:36:46.437 回答