2

我试图制作一段打开http连接的代码。不过,网页可能会以纯文本或 gzip 格式传输。结果,具有实用主义的代码尝试以纯文本形式打开,如果失败并收到异常,则尝试将其视为 gzip 编码。

URL 是唯一的变量。例如,尝试使用 URL = ' http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html '。

                user::catch(
                (
                 user::http_open(URL, DataStream, []),                            
                 user::load_html(stream(DataStream), Terms, []),
                 user::close(DataStream)
                ),
                _
                ,
                (
                 user::open_any(URL, read, GZipDataStream, CloseIt, [encoding(gzip), string(atom)]),
                 /*user::http:encoding_filter(gzip, DataStream, GZipDataStream),*/
                 user::load_html(stream(GZipDataStream), Terms, []),
                 user::close_any(CloseIt)
                )
                )

不幸的是,catch 的恢复部分不起作用。

请问有什么建议吗?

4

1 回答 1

3

目标中的user::前缀表明您发布的代码是 Logtalk 的一个片段。如果是这样,那就是滥用 Logtalk 源代码并创建了对 SWI-Prolog 自动加载机制的依赖。为了清晰和弹性,可以重写代码。这样做并修复其中的错误(library(zlib)必须加载才能使http:encoding_filter/3过滤器可用)导致以下解决方案:

:- use_module(library(http/http_open), []).
:- use_module(library(sgml), []).
:- use_module(library(iostream), []).
:- use_module(library(zlib), []).


:- object(html).

    :- public(get_url/2).

    % override ambiguous meta-predicate template
    :- meta_predicate(sgml:load_html(*,*,*)).

    get_url(URL, Terms) :-
        catch(
                setup_call_cleanup(
                    http:http_open(URL, DataStream, []),
                    sgml:load_html(stream(DataStream), Terms, []),
                    close(DataStream)
                ),
                _,
                setup_call_cleanup(
                    iostream:open_any(URL, read, DataStream, CloseIt, [string(atom)]),
                    sgml:load_html(stream(DataStream), Terms, []),
                    iostream:close_any(CloseIt)
                )
            ).

:- end_object.

这些setup_call_cleanup/3调用确保打开的流在出现错误时关闭。

假设上面的对象保存在一个html.lgt文件中,以下示例调用显示它适用于您发布的 URL:

?- {html}.
...
% (0 warnings)
true.

?- html::get_url('http://releases.llvm.org/6.0.0/tools/clang/docs/ClangCommandLineReference.html', Terms).
Terms = [element(html, [xmlns='http://www.w3.org/1999/xhtml'], [element(head, [], [element(meta, ['http-equiv'='Content-Type', content='text/html; charset=utf-8'], []), element(title, [], ['Clang command line argument reference — Clang 6 documentation']), element(link, [... = ...|...], []), element(link, [...|...], []), element(..., ..., ...)|...]), element(body, [role=document], ['      ', element(div, [... = ...|...], [element(..., ..., ...)|...]), '\n      ', element(..., ..., ...)|...])])].
于 2019-03-11T10:20:08.543 回答