我的最终目标是从 Google 网站页面导入一些数据。我正在尝试使用 gdata-python-client (v2.0.17) 下载特定的内容提要:
self.client = gdata.sites.client.SitesClient(source=SOURCE_APP_NAME)
self.client.client_login(USERNAME, PASSWORD, source=SOURCE_APP_NAME, service=self.client.auth_service)
self.client.site = SITE
self.client.domain = DOMAIN
uri = '%s?path=%s' % (self.client.MakeContentFeedUri(), '[PAGE PATH]')
feed = self.client.GetContentFeed(uri=uri)
entry = feed.entry[0]
...
结果 entry.content 具有 xhtml 格式的页面内容。但是此树不包含页面中的任何计划文本数据。只有 html 页面结构和链接。
例如我的测试页有
<div>Some text</div>
ContentFeed 条目只有带有text=None的div节点。
我已经调试了 gdata-python-client 请求/响应并检查了原始缓冲区中来自服务器的解析数据 - 内容中的任何计划文本数据。因此,这是一个 Google API 错误。
可能有一些解决方法吗?可能我可以使用一些常见的请求参数吗?这里出了什么问题?