我刚刚抓取了一堆 Google Buzz 数据,我想知道哪些 Buzz 帖子引用了相同的新闻文章。问题是这些帖子中的许多链接已被 URL 缩短器修改,因此许多不同的缩短 URL 实际上都指向同一篇新闻文章。
鉴于我有数百万个帖子,对我来说最有效的方法是什么(最好是在 python 中)
- 检测一个 url 是否是一个缩短的 URL(来自许多 URL 缩短服务中的任何一个,或者至少是最大的)
- 找到缩短 URL 的“目标”,即缩短 URL 的长原始版本。
有谁知道 URL 缩短器是否施加了严格的请求速率限制?如果我把这个速度降低到 100/秒(所有都来自同一个 IP 地址),你认为我会遇到麻烦吗?
更新和初步解决方案 响应导致以下简单解决方案
import urllib2
response = urllib2.urlopen("http://bit.ly/AoifeMcL_ID3") # Some shortened url
url_destination = response.url
就是这样!