1

环境:Python 2.7.4(部分在 Windows 上,部分在 Linux 上,见下文),suds(SVN HEAD 稍作修改)

我需要调用一个带有单个参数的 Web 服务,该参数是一个 XML 字符串(是的,我知道……),即请求在 WSDL 中声明为以下类型:

<s:complexType>
  <s:sequence>
    <s:element minOccurs="0" maxOccurs="1" name="actionString" type="s:string"/>
  </s:sequence>
</s:complexType>

cElementTree用来构造这个内部 XML 文档,然后将它作为唯一参数传递给client.service.ProcessAction(request)suds 生成的方法。

有一段时间,这工作正常:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
client.service.ProcessAction(request)

saxutils.escape我在某些时候添加了解决第一个编码问题,几乎无法理解我为什么需要它以及它有什么不同。

现在(可能是由于第一次出现井号),我突然得到以下异常:

Traceback (most recent call last):
  File "/app/module.py", line 135, in _process_web_service_call
    request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 137: ordinal not in range(128)

这里的位置 137 对应于特殊字符在内部 XML 请求中的位置。显然, cElementTree.tostring() 返回一个“str”类型,而不是一个“unicode”,即使给出了编码。因此 Python 尝试将此字符串 str 解码为 un​​icode(为什么使用 'ascii'?),以便它可以将它与 unicode 文字连接起来。这失败了(当然,因为 str 实际上是用 UTF-8 编码的,而不是 ASCII)。

所以我想,好吧,我会自己解码为 un​​icode:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request_encoded_str = ET.tostring(root, encoding='utf-8')
request_unicode = request_encoded_str.decode('utf-8')
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + request_unicode
client.service.ProcessClientAction(request)

除了现在,它在 suds 内部爆炸了,它出于某种原因试图解码外部 XML 请求:

Traceback (most recent call last):
  File "/app/module.py", line 141, in _process_web_service_call
    raw_response = client.service.ProcessAction(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 542, in __call__
    return client.invoke(args, kwargs)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 602, in invoke
    result = self.send(soapenv)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 643, in send
    reply = transport.send(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/https.py", line 64, in send
    return HttpTransport.send(self, request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 118, in send
    return self.invoke(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 153, in invoke
    u2response = urlopener.open(u2request, timeout=tm)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 422, in _open
    '_open', req)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1222, in https_open
    return self.do_open(httplib.HTTPSConnection, req)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1181, in do_open
    h.request(req.get_method(), req.get_selector(), req.data, headers)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 973, in request
    self._send_request(method, url, body, headers)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 1007, in _send_request
    self.endheaders(body)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 969, in endheaders
    self._send_output(message_body)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 827, in _send_output
    msg += message_body
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 565: ordinal not in range(128) 

这里的位置 565 再次对应于与上面相同的字符,只是这次它是嵌入到由 suds 创建的外部 XML 请求 (SOAP) 中的内部 XML 请求的位置。

我很困惑。谁能帮我摆脱这个烂摊子?:)

更糟糕的是,这一切都只发生在 Linux 下的服务器上。这些都不会在我的 Windows 开发环境中引发异常。(解释为什么会这样,只是因为我很好奇。我怀疑它与不同的默认编码有关。)但是,它们都不被服务器接受。在 Windows 上起作用的是,如果我放弃saxutils.escape然后将正确的 unicode 对象交给 suds。然而,这UnicodeDecodeError在 Linux 上仍然会产生相同的结果。

更新:我开始在 Windows 上调试它(它工作正常),并且在 httplib.py 的第 827 行,它确实试图连接 unicode 对象msg(包含 HTTP 标头)和 str 对象message_body,导致隐式 unicode 解码使用不正确的编码。我想它只是出于某种原因在 Windows 上不会失败。我不明白为什么当我将 unicode 对象放在顶部时,suds 会尝试发送 str 对象。

4

1 回答 1

1

事实证明这非常荒谬。我仍然只了解整个问题和情况的一小部分,但我设法解决了我的问题。

所以让我们追溯一下:我相信我的最后一次尝试是最理智的一次。所以让我们从那里开始:

msg += message_body

Python 中的那一行httplib.py试图连接一个 unicode 和一个 str 对象,这导致 str 的隐式.decode('ascii'),即使 str 是 UTF8 编码的。这是为什么?因为msg是一个unicode对象。

msg = "\r\n".join(self._buffer)

self._buffer是 HTTP 标头列表。检查后发现,只有一个标头是 unicode,“感染”了结果字符串:动作和端点。

还有一个问题:我正在使用unicode_literalsfrom __future__(使其更具前瞻性,对吗?对吗???)并且我正在将自己的端点传递给 suds。

.encode('utf-8')通过在 URL 上做一个,我所有的问题都消失了。甚至saxutils.escape不再需要整体(尽管奇怪地也没有受伤)。

tl;博士:我猜,请确保您没有将任何 unicode 对象传递到 httplib 或 suds 中。

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = complex_value)
request = ET.tostring(root, encoding='utf-8').decode('utf-8')
client.service.ProcessAction(request)
于 2013-05-06T18:46:54.527 回答