我使用 Bing API 在 Python 2.6 中编写了一个网络爬虫,它搜索某些文档,然后下载它们以便稍后进行分类。我一直在使用字符串方法并urllib.urlretrieve()
下载 URL 以 .pdf、.ps 等结尾的结果,但是当文档“隐藏”在以下 URL 后面时,我遇到了麻烦:
http://www.oecd.org/officialdocuments/displaydocument/?cote=STD/CSTAT/WPNA(2008)25&docLanguage=En
所以,两个问题。一般有没有办法判断一个 URL 是否有一个 pdf/doc 等文件,如果它没有明确地链接到它(例如 www.domain.com/file.pdf)?有没有办法让 Python 抓住那个文件?
编辑:感谢您的回复,其中一些建议下载文件以查看其类型是否正确。唯一的问题是……我不知道该怎么做(见上面的问题 #2)。urlretrieve(<above url>)
只给出一个 html 文件,其 href 包含相同的 url。