问题标签 [pycaret]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
297 浏览

python - PyCaret PCA 不起作用 - 错误:设置 random_state 无效,因为 shuffle 为 False。您应该将 random_state 保留为默认值(无)

先决条件信息

raw_df 是一个 pandas 数据帧,它有 16 列('eeg_channel_1'、'eeg_channel_2'、...'eeg_channel_16')和 1140 行(索引从 125 到 1264),代表 1140 个 EEG 数据样本(采样率:125 Hz)。

我从 pycaret 网站引用了此页面上的示例来编写此代码https://pycaret.readthedocs.io/en/latest/api/clustering.html

环境
python(3.9.1)
pycaret(2.2.3)
scikit-learn(0.24.2)
scikit-plot(0.3.7)

我正在运行的代码

我的目标:我正在尝试对包含来自 16 通道 EEG 记录的时间序列数据的数据帧执行主成分分析(该组中只有 2 个通道记录正常数据)。我想绘制数据的前两个主成分,以便我可以查看其中一个成分是否与 10 Hz 正弦波(即阿尔法波检测)具有高相关性。我知道更多通道对于提取更多主成分很重要,但我只想获得一个有效的 PCA 概念证明然后进行迭代。

问题:当我运行上述代码(简化版和真实版)时,我收到一条错误消息:

"ValueError: Setting a random_state has no effect since shuffle is False. You should leave random_state to its default (None), or set shuffle=True."

我没有在代码中的任何地方使用 random_state 参数,我也尝试将 1. shuffle=True、 2.random_state=None和 3.添加session_id=Nonesetup()参数中,但是当我这样做时,我分别收到以下错误消息:

  1. `setup() 得到了一个意外的关键字参数'shuffle'`
  2. setup() 得到了一个意外的关键字参数“random_state”`
  3. `设置 random_state > 没有效果,因为 shuffle 为 False。您应该将 random_state 保留为其默认值(无),或设置 >shuffle=True。

如果有人可以帮助我了解如何正确运行设置功能以在我的 EEG 数据中绘制特征集群,那将非常有帮助。如果有更好/更简单的方法来提取和绘制此数据中的主成分,那将同样有帮助。

完整的输出如下所示:在此处输入图像描述

0 投票
0 回答
654 浏览

python - GitHub Action 被杀死

我正在运行一个小 python 项目来收集数据。它由计划的 GitHub Action 脚本(每个午夜)触发。作为扩展项目的一部分,我已将pycaret库添加到项目中。所以目前安装项目的需求大约需要 15 分钟,再加上运行 python 项目是另外 10 分钟。但有趣的是,现在动作/作业被杀死:

现在我已经尝试查找进程被杀死的原因,我在 GitHub 操作中没有发现任何内容,我正在 GitHub 操作中的 ubuntu-latest 机器上运行该作业。我已将作业超时设置为 60 分钟,所以我认为这不是问题。

0 投票
1 回答
76 浏览

python - 在 PyCaret 时间序列中创建 12 个月 MA 会给出一个具有 NA 值的列

PyCaret根据本教程,我正在尝试用于时间序列。我的分析没有用。当我创建一个新列时

data['MA12'] = data['variable'].rolling(12).mean()

我得到了这个只有值的新MA12NA

结果,我决定使用AirPassangers数据集复制教程中的代码,但遇到了同样的问题。

当我打印数据时,我得到

对于这里发生的事情,我将不胜感激。

我唯一的猜测,我使用的是默认版本PyCaret,也许我需要安装一个完整版本。也试过这个 - 结果相同。

0 投票
1 回答
91 浏览

python - pycaret 函数设置的最佳参数是什么?

用在Pycaret的预处理函数setup()中请告诉我推荐的参数。

取决于输入数据的类型 如何参数 我应该改变它吗?

例如,通过分类、回归、聚类,我应该改变参数吗?还是会在不同的基础上改变?

谢谢你。

0 投票
0 回答
58 浏览

machine-learning - optimize_threshold 在 Pycaret 中做了什么?

官方文档中:

在分类问题中,误报的成本几乎永远不会与误报的成本相同。因此,如果您正在优化类型 1 和类型 2 错误具有不同影响的业务问题,您可以通过定义真阳性、真阴性、假阳性的成本来优化您的分类器以获得概率阈值以优化自定义损失函数和假阴性分开。

如何设置模型的成本分别需要高精度(例如,推荐引擎、垃圾邮件检测..)或高召回率(例如,预测癌症或预测恐怖分子)分数?负号是否意味着惩罚?

0 投票
1 回答
187 浏览

python - 使用 Pycaret 和 plotly 的奇怪时间序列图

我正在尝试使用 pycaret 和 plotly dash python 库将空气质量数据可视化为时间序列图表,但我得到了非常奇怪的图表,下面是我的代码:

这是我奇怪的输出图

在这方面需要必要的帮助,

这是我的示例数据Google Drive Link

0 投票
0 回答
47 浏览

data-science - 超参数调优后 Pycaret 模型性能下降

我正在尝试使用 pycaret 训练模型,并多次注意到超参数调整后模型性能会降低。

我附上了一张图片,展示了我如何尝试调整。

谁能建议我做错了什么?

提前致谢!

在此处输入图像描述

0 投票
1 回答
646 浏览

python - Pycaret 异常检测设置:ValueError: Setting a random_state has no effect since shuffle is False

我最近从 R 过渡到 python,我不知道如何解决以下问题。

当我按照可以在此处找到的说明运行 pycaret 异常检测设置时,根据我自己的数据,我收到以下错误。

与示例的唯一区别是我有一些额外的 xreg(base_price(float64)、sale_price(float64)、promotion_flag(int64; 0 或 1))。据我了解,这不应该影响结果,毕竟有许多时间特征。其他一切都是一样的。所以我不明白为什么会发生这个错误。

我尝试了这个stackoverflow 问题的答案以及添加shuffle=True,但这些都导致了unexpected keyword argument.

我很欣赏这可能有点基本,但根据我所做的,这个错误对我来说没有意义。谢谢你的时间。

Python 3.7.10

0 投票
0 回答
32 浏览

python - Power BI 和 Pycaret.clustering Python 库

我正在使用Power Bi对数据集(6000 行)进行聚类,方法是使用Pycaret Python 库版本2.0以及python 3.6.13power BI 2.96 64-bit(2021)。当我执行设置函数时,power BI 仍然尝试执行 2 小时,然后返回代码需要更多时间来执行 。另一方面,相同的代码在 vs-code 和 pyCharm 中正确运行,没有任何错误。谁能告诉我该如何解决?. .

编码 :

0 投票
0 回答
591 浏览

python - KeyError:“['age'] 不在索引中”

我正在尝试为分类 categorical_features=['sex','cp','fbs','retecg','exang','thal']创建一个模型 我在 pandas 数据框中有列,例如

当我在 ( from pycaret.classification import * )

我收到类似的错误

KeyError:“['age'] 不在索引中”

但是正如您在 df.column 的索引中看到的那样,我们有“年龄”,我不知道为什么除了“目标”列之外的所有列都显示错误,我可以在轴 = 1 中删除该列

predict_model(best_model, data=df.drop('target',axis=1).tail())#working