问题标签 [tpot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
894 浏览

python - 使用 TPOT CV 拟合时,是否在整个数据集上重新训练了 fit_pipeline_?

我正在使用带有 TPOTRegressor 的 LeaveOutGroupOut CV 策略

优化后,最好的评分训练管道被存储tpot.fitted_pipeline_tpot.fitted_pipeline_.predict(X)可用。

我的问题是:装配好的管道将接受什么培训?例如

  • tpot 是否在将其存储之前使用整个数据集重新调整优化的管道tpot.fitted_pipeline_
  • 或者这将代表一个训练有素的管道,从最好的得分分裂

此外,有没有办法访问与获胜/优化管道的拆分集相对应的完整训练模型集?

0 投票
2 回答
522 浏览

apache-spark - 如何使用 dask TO spark 集群(独立模型或 Mesos 模型)运行 TPOT

我正在尝试使用 Matthew Rocklin 提出的名为 dask-spark 的项目。

在我的项目中添加dask-spark时,出现了一个问题:等待workers,如下图所示。

在这里,我将两个工作节点(dask)作为 dask-worker tcp://ubuntu8:8786 和 tcp://ubuntu9:8786 运行,并在独立模型上运行两个工作节点(spark),作为 worker-20180918112328-ubuntu8-45764和worker-20180918112413-ubuntu9-41972

等待工人

我的python代码如下:

如果您能帮我解决这个问题,我将不胜感激。

0 投票
1 回答
1216 浏览

kubernetes - 在运行 TPOT 时,Dask 不断失败并出现被杀死的工作人员异常

我在 gcp 上的 kubernetes 集群上运行tpot和 dask,集群是 24 核 120 gb 内存和 4 个 kubernetes 节点,我的 kubernetes yaml 是

我的数据是 400 万行和 77 列,每当我在 tpot 分类器上运行 fit 时,它都会在 dask 集群上运行一段时间然后崩溃,输出日志看起来像

我尝试按照 dask 分布式文档的建议增加每个工作人员的线程数,但问题仍然存在。我提出的一些意见是:

  • 如果 n_jobs 较少(对于 n_jobs=4,它在崩溃前运行了 20 分钟)则崩溃需要更长的时间,而 n_jobs=-1 会立即崩溃。

  • 它实际上会开始工作并为更少的数据获得优化的模型,10000 个数据它可以正常工作。

所以我的问题是,我需要进行哪些更改和修改才能完成这项工作,我想它是可行的,因为我听说 dask 能够处理比我更大的数据。

0 投票
1 回答
534 浏览

python - tpot:仅使用多输出回归器

我想使用tpot。我拥有的数据仅包括多输出连续变量(即输出形状为:(n_samples,n_output_variables),其中所有项目都是浮点数)。

这可以使用 sklearn 的MultiOutputRegressor类来实现。但是因为我有超过 100 个不同的输出变量,所以我想避免为每个单独的输出应用 tpot。

现在,如何使用 tpot 只搜索多输出模型?有没有办法告诉 tpot 只应该使用多输出模型(例如决策树)?

0 投票
1 回答
260 浏览

python - TPOT:在 COLAB 中工作时,拟合后导出的最佳管道(.py 文件)在哪里

我正在运行 TPOT 文档页面提供的 MNIST 数据集分类示例。我正在使用 Google Colab 执行此操作,但是我找不到 tpot 在训练后检索到的具有最佳管道的代码。

你能帮我弄清楚这个 .py 文件保存在哪里吗?

0 投票
2 回答
877 浏览

python - RuntimeError:管道尚未优化。请先调用 fit()。Python 中 TPOT 自动机器学习的问题

在执行示例代码时,我遇到以下问题:“RuntimeError:管道尚未优化。请先调用 fit()。

Python 中 TPOT 自动机器学习的问题。我正在尝试举例:数据集 2:蘑菇分类(https://towardsdatascience.com/tpot-automated-machine-learning-in-python-4c063b3e5de9

源代码: https ://www.kaggle.com/discdiver/tpot-mushroom-classification-task/

我试图改变 tpot.fit (X_train, y_train) 的位置,但并没有解决问题。

图书馆

0 投票
1 回答
1891 浏览

python - 在获得最佳 TPOT 管道后获得 feature_importances_?

我已经阅读了几页,但需要有人帮助解释如何使它起作用。

TPOTRegressor()用来获得最佳管道,但从那里我希望能够绘制.feature_importances_它返回的管道:

我在 Github 上的一个现已关闭的问题中看到了这种设置,但目前我收到了错误:

那么,无论它落在哪个管道上,我如何从最优管道中获得这些特征重要性?或者这甚至可能吗?还是有人有更好的方法来尝试从 TPOT 运行中绘制特征重要性?

谢谢!

更新

为澄清起见,特征重要性的含义是确定数据集的每个特征 (X) 在确定预测 (Y) 标签中的重要性,使用条形图绘制每个特征在提出预测时的重要性级别。TPOT 不直接这样做(我不这么认为),所以我想我会抓住它提出的管道,在训练数据上重新运行它,然后以某种方式使用 a.feature_imprtances_来绘制图表特征重要性,因为这些都是我正在使用的 sklearn 回归器?

0 投票
1 回答
786 浏览

python - Converting Pandas DF to Numpy Array gives me a # of features error when trying to predict?

I have a TPOT regressor set up to predict stock prices on a dataset (after some feature engineering), and I ran into an issue when the XGBoost regressor was involved, I would receive an error that said:

...and it would then display the list of column names for my dataset. A solution was brought up for this issue over at Github that suggested to convert the dataframes of the X features and Y label to a Numpy Array during the train_test_split to take care of it, so that's what I did, but now I receive an error:

The issue at Github is now closed, but I'm hoping someone here can explain what I'm missing here? As you can see there's 68 feature columns and 1 label column. And you'll also see that the model this time doesn't even use XGBoost, but I'd like to be able to have any model it comes up with work with the .predict() function.

UPDATE WTIH CODE

Ok I'm seriously stuck here. I've posted a working code below to duplicate the error. Let me know what you see. Input stock ticker CLVS. I've added print shapes of the dataframes and arrays throughout the entire process and it still says the shapes are fine so what am I not seeing? You'll need Pandas 0.23 (yes old version) and TPOT and DASK installed. Thanks:

0 投票
1 回答
351 浏览

python - TPOT P@K 自定义记分器

我正在使用(并且喜欢)TPOT,但在实现自定义 P@K 记分器时遇到了麻烦。假设我想在 100 个预测(或任何数字 K)中获得尽可能多的真阳性,那么如何编码呢?我已经尝试使用下面的代码,但我一直收到管道尚未安装的错误,尽管标准记分器没有错误。

0 投票
1 回答
3912 浏览

python - TypeError 的原因是什么:当我的数据集中没有 NaN 值时,输入类型不支持 ufunc 'isnan'

我有一个数据集,经过它之后我似乎没有找到任何NaN值,但不幸的是,TypeError: ufunc 'isnan' not supported当我运行代码时得到了。

数据集链接:https ://docs.google.com/spreadsheets/d/1v5HQLrCuJXWLTLoaHFa5WPqakjpglEgEMGC9TLEwbjY/edit?usp=sharing

下面的代码是我的错误代码,它一直指向sms_data.loc[training_indices,'label'].values)