我正在使用 Pycaret 分类对我超过 100 万个数据(这包括 18 个分类和 1 个数字特征)进行一些机器学习。Pandas Dataframe 存储从 Oracle 数据库中提取的数据。这些步骤大约需要 2-3 分钟。当我的数据被预处理时,它需要超过 7 个小时。有没有办法提高速度?
这是python SQL代码:
from pycaret.classification import *
# init setup
clfl = setup(data=SQL_Query, target = 'cat_ind',silent = True, html = False,categorical_features= [cat1,cat2,cat3,cat4,cat5,cat6,cat7,cat8,cat9,cat10,cat11,cat12,cat13,cat14,cat15,cat16,cat17],numeric_features=['amt'],ignore_features=['paid','catignore']remove_outliers=True,train_size=0.9,handle_unknown_categorical=True, unknown_categorical_method='most_frequent'))