我在 Python 中使用 urllib 的 urlretrieve() 函数来尝试从网站上获取一些 pdf。它(至少对我而言)已停止工作并正在下载损坏的数据(15 KB 而不是 164 KB)。
我已经用几个 pdf 对此进行了测试,但都没有成功(即random.pdf)。我似乎无法让它工作,我需要能够为我正在从事的项目下载 pdf 文件。
这是我用来下载 pdf 的代码类型的示例(并使用pdftotext.exe解析文本):
def get_html(url): # gets html of page from Internet
import os
import urllib2
import urllib
from subprocess import call
f_name = url.split('/')[-2] # get file name (url must end with '/')
try:
if f_name.split('.')[-1] == 'pdf': # file type
urllib.urlretrieve(url, os.getcwd() + '\\' + f_name)
call([os.getcwd() + '\\pdftotext.exe', os.getcwd() + '\\' + f_name]) # use xpdf to output .txt file
return open(os.getcwd() + '\\' + f_name.split('.')[0] + '.txt').read()
else:
return urllib2.urlopen(url).read()
except:
print 'bad link: ' + url
return ""
我是一个新手程序员,所以任何输入都会很棒!谢谢