有一个关于如何使用 python blaze 模块进行分析的简单问题。所以,我正在尝试执行此代码:
from blaze import SQL,Table
from sqlalchemy import create_engine
from scipy.stats import pearsonr
sql_path=r'/path/to/my/database.db'
e=create_engine('sqlite:///%s'%sql_path)
blz_sql=SQL(e,'analysis_dataframe')
blz_frame=Table(blz_sql)
blz_cols=blz_frame.columns
corr=pearsonr(blz_frame[blz_cols[0]],blz_frame[blz_cols[10]])
print(corr)
在这里我得到了这个错误:
TypeError: len() of unsized object
在阅读了一些 blaze 文档后,我发现问题在于将 blaze 列转换为如下结构:
import pandas as pd
from blaze import into
df=into(pd.DataFrame,blz_frame[blz_cols[0]]
但是这种转换会使 pearsonr 在列列表上的迭代计算变慢。那么,我怎样才能简单地将 blaze 列转换为 np.array 以使用计算(如 pearsonr 或 statsmodels.api.Logit(blz_frame.y,blz_frame[[train_cols]])?)如果有意义,我正在使用Anaconda for Python 3.4,我的 blaze 版本:
import blaze
print(blaze.__version__)
#returns 0.6.3