问题是,日志文件对于挖掘来说太大了。(假设每天的请求接近 100m )
我想知道也许有一种方法可以简化请求行。我不需要所有存储桶字段值。
例如行:
314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe "GET /s3browser/2.4.5/s3browser-portable-2-4-5.exe HTTP/1.1" 200 - 289897 289897 50 44 "http://s3browser.com/download.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.44 Safari/534.7" -
我找不到任何有关减少桶格式文件数量的信息。
我只需要时间、远程 IP、密钥、引用者、发送的字节数、对象大小和用户代理。
有人对此有任何想法吗?
也欢迎任何其他关于在短时间内挖掘这些大文件的想法。
谢谢。