3

我可以使用Mojo::DOM及其 CSS3 选择器来找出 HTML 文档的 DOCTYPE 吗?与我的另一个问题相关,我应该如何使用 Mojo::UserAgent 处理 HTML META 标签?在我想设置文档的字符集的地方,我需要知道要查看的内容,而doctype 嗅探似乎是一种方法。当文档设置覆盖服务器设置(或非设置)时,HTML 和 HTML 5 对 HTML 中的字符集具有不同的元标记。

我完成任务没有问题,因为我可以获取原始响应并使用正则表达式来查看 DOCTYPE。由于浏览器 DOM 似乎能够获取 DOCTYPE,因此我被认为应该能够获取它的想法所感染。然而,缺乏例子让我认为没有人按照我认为我应该做的方式去做。

我尝试了很多愚蠢的方法,但我的 CSS 功夫很弱:

use v5.20;

use feature qw(signatures);
no warnings qw(experimental::signatures);

use Mojo::DOM;

my $html = do { local $/; <DATA> };

my $dom = Mojo::DOM->new( $html );

say "<title> is => ", $dom->find( 'head title' )->map( 'text' )->each;

say "Doctype with find is => ", $dom->find( '!doctype' )->map( 'text' )->each;

say "Doctype with nodes is => ", $dom->[0];

__DATA__

<!DOCTYPE html>
<head>
<title>This is a title</title>
</head>
<body>
<h1>Level 1</h1>
</body>
</html>

当我转储$dom对象时,我在树中看到 DOCTYPE:

$VAR1 = bless( do{\(my $o = bless( {
                      'tree' => [
                                  'root',
                                  [
                                    'text',
                                    '',
                                    ${$VAR1}->{'tree'}
                                  ],
                                  [
                                    'doctype',
                                    ' html',
                                    ${$VAR1}->{'tree'}
                                  ],

现在我该怎么做?

4

2 回答 2

2

确定 HTML5 文档的编码是非常复杂的。恐怕Mojo::DOM只是一个片段解析器,因此我们决定编码嗅探算法的完整实现将超出范围。谢天谢地,大多数网络都是 UTF-8 编码的,我想这就是为什么这个问题不经常出现的原因。

于 2015-09-17T21:34:46.303 回答
1

我仍然认为有希望找到更好的方法来做到这一点,但也许我对Mojo::UserAgent承担了太多责任。我可以建立一个事务并将一个finish事件添加到响应中。在那种情况下,我使用正则表达式嗅探内容并添加X-带有 doc 类型的标题。我可能可以通过其他方式传递信息,但这不是重点(尽管仍在接受建议!)

use v5.14;

use Mojo::UserAgent;

@ARGV = qw(http://blogs.perl.org);

my $ua = Mojo::UserAgent->new;

my $tx = $ua->build_tx( GET => $ARGV[0] );
$tx->res->on( finish => sub {
    my $res = shift;
    my( $doctype ) = $res->body =~ m/\A \s* (<!DOCTYPE.*?>)/isx;
    if( $doctype ) {
        say "Found doctype => $doctype";
        $res->headers->header( 'X-doctype', $doctype );
        }
    });
$tx = $ua->start($tx);

say "-----Headers-----";
say $tx->res->headers->to_string =~ s/\R+/\n/rg;

这是输出:

Found doctype => <!DOCTYPE html>
-----Headers-----
Connection: Keep-Alive
Server: Apache/2.2.12 (Ubuntu)
Content-Type: text/html
Content-Length: 20624
Accept-Ranges: bytes
X-doctype: <!DOCTYPE html>
Last-Modified: Wed, 16 Sep 2015 13:08:26 GMT
ETag: "26d42e8-5090-51fdcfe768680"
Date: Wed, 16 Sep 2015 13:40:02 GMT
Keep-Alive: timeout=15, max=100
Vary: Accept-Encoding

现在我必须考虑各种事情来解析DOCTYPE值并根据这些决定如何处理内容。

于 2015-09-16T13:44:33.250 回答