r - 使用 HTTP 请求从冗余 URI 中识别 Web 对象

Question

我正在为一个结构不正确的网络服务器日志文件而苦苦挣扎，我想总结一下以分析托管站点的出席情况。对我来说不幸的是，该站点的架构很混乱，因此没有托管对象（html 页面、jpg 图像、pdf 文档等）的索引，而多个 URI 可以引用同一页面。例如：

等等，在重复的 URI 之间没有任何明显的规律性。

如何在概念上和实践上有效地识别页面？正如我看到的问题，这个想法是构建一个索引，将日志的 URI 与从 http 请求构造的唯一对象标识符链接起来。存在三个松散的约束：

score 0 · Accepted Answer

使用 httr 这很容易：

library(httr)
HEAD("http://gmail.com")$url

您可能还想检查status_codeHEAD 返回的内容，因为通常不会重定向失败。

（这里使用 httr 而不是 RCurl 的一个优点是它会自动保留对同一站点的多个 http 调用之间的连接，这使事情变得更快）

1 回答 1