0

我现在正在使用它的 api 在新浪微博爬虫上工作。为了使用 api,我必须访问 oauth2 授权页面以从 url 检索代码。

这正是我的做法:

  1. 使用我的 app_key 和 app_secret(都是已知的)

  2. 获取 oauth2 网页的 url

  3. 手动从响应 URL 复制并粘贴代码。

这是我的代码:

#call official SDK
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)

#get url of callback page of authorization
url = client.get_authorize_url()
print url

#open webpage in browser
webbrowser.open_new(url)

#after the webpage responding, parse the code part in the url manually
print 'parse the string after 'code=' in url:'
code = raw_input()

我的问题是如何摆脱手动解析部分?

参考: http: //blog.csdn.net/liuxuejiang158blog/article/details/30042493

4

1 回答 1

0

要使用请求获取页面的内容,您可以这样做

import requests

url = "http://example.com"

r = requests.get(url)

print r.text

您可以在此处查看请求库的详细信息。您可以使用pip将其安装到您的 virtualenv / python dist 中。

对于编写爬虫,您还可以使用scrapy

最后,我不明白一件事,如果您有官方客户端,那么为什么需要解析 URL 的内容来获取数据。客户端不是使用一些不错且易于使用的功能为您提供数据吗?

于 2017-06-07T10:22:40.220 回答