这个问题是您需要根据您要处理的非 ASCII 数据量来决定的。psycopg2 解码 unicode 的方法比 SQLAlchemy 的方法更快,假设 SQLA 的 C 扩展未在使用中,但与不进行任何类型的 unicode 转换相比,仍然会增加结果集的延迟。在上面的代码中,没有使用 SQLAlchemy 的 unicode 工具;这些仅在列映射到 Unicode 或 String 类型时使用,仅当您使用 text()、select() 或 ORM 级别的等效项时才会发生这种情况,其中 Unicode 类型映射到这些结果集列使用表元数据 text() 的“typemap”参数。
Psycopg2 的本机 unicode 工具 OTOH 在光标级别生效,因此始终有效,并且显然总体上增加了一些延迟。
下面是一系列说明不同方法如何工作的插图。最后一个是与 SQLAlchemy 最相似的,虽然当使用 SQLAlchemy 的 C 扩展时,我们可能只是 psycopg2 的快:
import psycopg2
from psycopg2 import extensions
conn = psycopg2.connect(user='scott', password='tiger', host='localhost', database='test')
cursor = conn.cursor()
cursor.execute("""
create table data (
id SERIAL primary key,
data varchar(500)
)
""")
cursor.executemany("insert into data (data) values (%(data)s)", [
{"data":"abcdefghij" * 50} for i in xrange(10000)
])
cursor.close()
def one(conn):
cursor = conn.cursor()
cursor.execute("SELECT data FROM data")
for row in cursor:
row[0]
def two(conn):
cursor = conn.cursor()
extensions.register_type(extensions.UNICODE, cursor)
cursor.execute("SELECT data FROM data")
for row in cursor:
row[0]
def three(conn):
cursor = conn.cursor()
cursor.execute("SELECT data FROM data")
for row in cursor:
row[0].decode('utf-8')
def four(conn):
cursor = conn.cursor()
def conv_unicode(value):
return value.decode('utf-8')
cursor.execute("SELECT data FROM data")
for row in cursor:
conv_unicode(row[0])
import timeit
print "no unicode:", timeit.timeit("one(conn)", "from __main__ import conn, one", number=100)
print "native unicode:", timeit.timeit("two(conn)", "from __main__ import conn, two", number=100)
print "in Python unicode:", timeit.timeit("three(conn)", "from __main__ import conn, three", number=100)
print "more like SQLA's unicode:", timeit.timeit("four(conn)", "from __main__ import conn, four", number=100)
我得到的时间:
no unicode: 2.10434007645
native unicode: 4.52875208855
in Python unicode: 4.77912807465
more like SQLA's unicode: 4.88325881958
所以这里有趣的是,如果我们使用 C 扩展,SQLA 的方法实际上可能是比 psycopg2 的本机方法更好的选择,如果事实上你没有大量使用 Unicode 类型和你的大部分字符串值只是纯 ASCII。