0

使用heritrix,我抓取了一个包含一些PDF文件的网站。爬取日志显示 pdf 链接的内容类型为“application/pdf”,而 .warc 文件中的响应(爬取输出)显示内容类型为“application/http”以及“application/pdf”(请参见下面的示例:)。

WARC/1.0^M
WARC-Type: response^M
WARC-Target-URI: `http://example.com/b/c/files/abc.pdf`^M
WARC-Date: 2014-05-29T10:48:03Z^M
WARC-Payload-Digest: sha1:JMRPMGSNIPHBPSBNPD2VJ2NIOGD75UUK^M
WARC-IP-Address: 86.36.67.50^M
WARC-Record-ID: <urn:uuid:00c8b80f-2851-42a1-a449-3cd9e238bfe9>^M
**Content-Type: application/http; msgtype=response^M**
Content-Length: 592173^M
WARC-Block-Digest: sha256:0a56d251257dbcbd6a54e19a528a56aae3e0c9e92a6702f4048e3b69bb3e0920^M
^M
HTTP/1.1 200 OK^M
Date: Thu, 29 May 2014 10:48:04 GMT^M
Server: Apache/2.4.4 (Unix) OpenSSL/0.9.7d PHP/5.3.12 mod_jk/1.2.35^M
Last-Modified: Wed, 20 Nov 2013 08:13:50 GMT^M
ETag: "90805-4eb975c6bcb80"^M
Accept-Ranges: bytes^M
Content-Length: 591877^M
Connection: close^M
**Content-Type: application/pdf^M** 
followed by the content of the PDF file

我不明白这是怎么回事。谁能解释一下?

4

1 回答 1

0

WARC 文件包含:

首先是WARC-Header-Metadata, 从开始到第一个空行。这个标题描述了接下来的内容,即。完整的 http 响应,带有标头和内容。因此内容类型为 application/http。

然后是HTTP-Response-Metadata. 此标头是实际的 HTTP 标头,并描述了以下内容,即。PDF 文档。

于 2015-03-18T13:45:49.883 回答