我正在使用 urllib2.request 查询 Web 服务并接收 XML。如果我违反了 Web 服务的速率限制(1 次调用/秒),我会收到 HTML 回复说我违反了速率限制。
尽管每次通话后我可以 time.sleep() 2-3 秒,但无论出于何种原因,我仍然违反了速率限制。
为了测试我的响应是 XML 还是 HTML,我使用 xml.dom.minidom() 然后测试是否存在 html 元素
try:
dom = xml.dom.minidom.parseString(response_text)
except xml.parsers.expat.ExpatError:
return False
if len(dom.getElementsByTagName('html')) == 0:
return True
else:
return False
这样就完成了工作,但我遇到了一个 XML 属性包含 XML 的情况。在这种情况下, parseString() 命令失败并显示
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/opt/python/default-2.6/lib/python2.6/xml/dom/minidom.py", line 1918, in parse
return expatbuilder.parse(file)
File "/opt/python/default-2.6/lib/python2.6/xml/dom/expatbuilder.py", line 924, in parse
result = builder.parseFile(fp)
File "/opt/python/default-2.6/lib/python2.6/xml/dom/expatbuilder.py", line 207, in parseFile
parser.Parse(buffer, 0)
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 3125
在这种情况下,第 3125 列是某些属性值文本的一部分,其中包含 &-pound-x-9(Stackoverflow 正在隐藏我的 unicode)。
xml.dom.minidom 应该能够处理这个吗?除了这个导致解析失败的 XML 是否还有其他问题?
此外,如果社区有其他处理此类情况的方法,我愿意接受。
如果有帮助,以下是当我违反其速率限制时 Web 服务返回的内容:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="eng">
<head>
<title>Service Temporarily Unavailable - Rate Limited</title>
</head>
<body style="text-align:center;background-color:white;">
<h1>Service Temporarily Unavailable</h1>
<hr />
<div>
You have used this service too often in a short time. Please wait before using this service again.
<br/><br/>
Please visit the <a href="http://wiki.xxxx.com/index.php?title=API_Usage">wiki</a> for more details.
</div>
</body>
</html>