8

背景:ETag 跟踪在此处得到了很好的解释,并且在Wikipedia上也有提及。

我在回复“如何防止 ETags 跟踪?”时写了一个答案。驱使我写下这个问题。

我有一个阻止 ETag 跟踪的浏览器端解决方案。它无需修改当前的 HTTP 协议即可工作。这是 ETag 跟踪的可行解决方案吗?

我们没有告诉服务器我们的 ETag ,而是向服务器询问它的 ETag,并将其与我们已有的进行比较。

伪代码:

If (file_not_in_cache)
{
    page=http_get_request();     
    page.display();
    page.put_in_cache();
}
else
{
    page=load_from_cache();
    client_etag=page.extract_etag();
    server_etag=http_HEAD_request().extract_etag();

    //Instead of saying "my etag is xyz",
    //the client says: "what is YOUR etag, server?"

    if (server_etag==client_etag)
    {
        page.display();
    }
    else
    {
        page.remove_from_cache();
        page=http_get_request();     
        page.display();
        page.put_in_cache();
    }
}

我的解决方案的 HTTP 对话示例:

客户:

HEAD /posts/46328
host: security.stackexchange.com

服务器:

HTTP/1.1 200 OK
Date: Mon, 23 May 2005 22:38:34 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
ETag: "EVIl_UNIQUE_TRACKING_ETAG"
Content-Type: text/html
Content-Length: 131

案例1,客户端有一个相同的ETag:

Connection closes, client loads page from cache.

案例 2,客户端的 ETag 不匹配:

GET...... //and a normal http conversation begins.

需要修改 HTTP 规范的额外内容

将以下内容视为理论材料,HTTP 规范可能不会很快改变。

1. 去除 HEAD 开销

值得注意的是,开销很小,服务器必须发送两次 HTTP 标头:一次响应 HEAD,一次响应 GET。一个理论上的解决方法是修改 HTTP 协议并添加一种请求无标头内容的新方法。然后,如果 ETag 不匹配,客户端将仅请求 HEAD,然后仅请求内容。

2. 防止基于缓存的跟踪(或至少使其更难)

尽管 Sneftel 建议的解决方法不是 ETag 跟踪技术,但它确实可以跟踪人们,即使他们使用我建议的“HEAD, GET”序列。解决方案是限制 ETag 的可能值:ETag 必须是内容的校验和,而不是任何序列。客户端对此进行检查,如果校验和值与服务器发送的值不匹配,则不使用缓存。

旁注:修复 2 还将消除以下Evercookie跟踪技术:pngData、etagData、cacheData。将其与 Chrome 的“仅在我退出浏览器之前保留本地数据”相结合,消除了除 Flash 和 Silverlight cookie 之外的所有 evercookie 跟踪技术。

4

3 回答 3

5

这听起来很合理,但存在解决方法。假设首页总是被赋予相同的 etag(这样返回的访问者总是会从缓存中加载它),但是页面本身在每次加载时都引用了一个不同名称的图像。然后,您对该图像的 GET 或 HEAD 请求将唯一标识您。可以说这不是基于 etag 的攻击,但它仍然使用您的缓存来识别您。

于 2013-12-02T20:52:47.630 回答
3

只要使用了任何缓存,就会有潜在的漏洞利用,即使是 HTTP 更改也是如此。假设主页包含 100 张图片,每张图片都是从潜在的 2 张图片池中随机抽取的。

当用户返回站点时,她的浏览器会重新加载页面(因为校验和不匹配)。平均而言,100 张图像中的 25 张将被缓存。这种组合(几乎可以肯定)可用于对用户进行单独指纹识别。

有趣的是,这几乎就是 DNA 亲子鉴定的工作原理。

于 2013-12-03T11:26:47.153 回答
0

服务器可以检测到,对于许多资源,您执行了 HEAD 请求,而该请求之后没有针对同一资源进行 GET。如果你在玩扑克,那是一个判断。

仅仅通过缓存一些资源,您就可以存储信息。只要您不重新请求页面上指定的资源,服务器就可以推断出该信息。

以这种方式保护您的隐私是以每次访问都必须下载页面上的所有资源为代价的。如果您曾经缓存过任何东西,那么您正在存储可以从您的请求中推断出的信息到服务器。

尤其是在移动设备上,您的带宽更昂贵且通常更慢,每次访问都下载所有页面资源可能是不切实际的。我认为在某种程度上,您必须接受在您与网站的互动中存在一些模式,这些模式可以被检测和分析以识别您的身份。

于 2016-06-18T12:42:22.090 回答