对于业务,我需要使用 PandaSQL 检索数据。我在代码中使用了大约 4 个查询,我的基本数据大小为 2,000,000。
我在我的代码中使用以下类型的查询。请注意,变量是虚拟变量,但语法相同。
import pandasql as pdsql
str1="""select distinct class,year,section,student_name from student_data where class=%d and year='%s'"""
str2=str1%(class,year)
pysql = lambda q: pdsql.sqldf(q, globals())
df1 = pysql(str2)
目前,代码执行需要 5 分 30 秒。如何在 Python 3.x 中使用 PandaSQL 使其运行更快?