问题标签 [mlxtend]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 购物篮数据的热编码数据
我有一个数据集,我试图在其上确定关联规则。合并映射后的数据如下:
遵循此参考:Python 中的市场篮子分析。我看到我可以使用该groupby
方法使用订单 ID 和使用以下命令对数据进行分组:
我可以通过 order_id 对所有东西进行分组,购买的单个产品之间没有空格。但是,从这里开始,我对如何执行参考中所做的一种热编码一无所知。参考使用命令:
尽管我试图一一理解每个单独的命令,但我似乎无法理解事物。就像我尝试同时使用groupby
order_id 和 product_id 的测试一样,但出现错误:
行数为3m,潜在产品总数为25000。
如果有人可以帮助我,我将不胜感激。
提前致谢。
machine-learning - 我的 StackingCVClassifier 的准确度低于基本分类器,但在测试集上表现很好
我用 mlxtend 构建了一个简单的堆叠分类器,并且正在尝试不同的基本分类器,我正面临一个有趣的情况。从我所有的研究来看,在我看来,堆叠分类器总是比它们的基础分类器表现得更好。
就我而言,当我在训练集上交叉验证堆叠分类器时,我得到的分数低于一些基本估计器。此外,我经常让我的堆叠分类器平均 CV 分数等于基本估计器的平均 CV 分数中的最低值。
这不是很奇怪吗?更奇怪的是,一旦我在我的堆叠分类器上执行 GridSearchCV,选择最佳参数并在整个训练集上重新训练,最后在测试集上计算准确度,我实际上得到了一个不错的分数。
我知道这种方法容易泄漏,并且有不同的技术可以对堆叠分类器进行 CV,但它们似乎非常慢,而且根据我的研究,上述方法似乎没问题(关于这种潜在的泄漏,这个 Kaggle Stacking 指南帖子甚至说“在实践中,每个人都忽略了这个理论漏洞(坦率地说,我认为大多数人甚至都不知道它的存在!” http://blog.kaggle.com/2016/12/27/a-kagglers-guide-to-model-stacking -in-practice/见参数调整段落)
python - 如何在加载 MNIST 数据集时修复“没有这样的文件或目录”错误
我已经从 yann.lecun.com 下载了 MNIST 训练图像和标签并将它们解压缩。我正在尝试使用此代码加载它们-
但是,我收到此错误-
该目录确实存在,并且文件名正确。我怎样才能解决这个问题?
编辑:我尝试了同样的python-mnist
包装-
我遇到了类似的错误-
该错误似乎仅与培训标签文件有关;我尝试重新下载文件,但没有解决它。
编辑 2:根据要求,这是ls -l /python/mnist-files
-
编辑3:这是输出print(os.listdir('/python/mnist-files'))
:
我完全被迷惑了——我知道该目录存在!当我 cd into 时我可以看到它/python
!
python - Mlxtend Apriori 给出稀疏数据帧错误
使用带有 mlxtend apriori 的稀疏数据帧的问题。
我在 anaconda 中运行 python 2.7 并安装了 mlxtend。基于最新版本的 mlxtend,aprioir 类支持稀疏数据帧作为其输入。我有超过 50 万种产品要对其进行购物篮分析。我正在尝试使用一个小数据集创建一个 onehot 编码的稀疏数据帧来测试,但我在 mlextend apriori 函数内的稀疏数据帧上遇到了 df.to_coo() 问题。
请在此处找到代码、输入数据文件和错误 -
https://github.com/nshahHome/pycode
单击查看代码以查看文件。
code = code2.py input data file= mbtest.txt errors = code2-error.html(您可能需要下载此文件并在浏览器中打开)
我希望代码不会抛出错误并尝试创建频繁项集。如果没有集合 > min_support,则集合可能为空。
scikit-learn - 通过 mlxtend 或其他工具与原始数据堆叠
我想通过与原始特征堆叠形成的元特征来预测结果。
我使用 mlxtend 进行堆叠,并尝试将原始功能与元功能一起使用,但这个库不能很好地工作。
并且发生错误
我认为这是由具有多维的原始数据引起的。
我想知道更好的方法或工具。
我应该怎么办?
machine-learning - 堆叠分类器上的分类器数量是否必须等于我的训练/测试数据集的列数?
我正在尝试解决二进制分类任务。训练数据集包含 9 个特征,在我的特征工程之后,我结束了 14 个特征。我想通过使用 4 个不同的分类器来使用带有
mlxtend.classifier.StackingClassifier的堆叠分类器方法,但是在尝试预测测试数据集时出现错误:ValueError: query data dimension must match training data dimension
备注:在我的代码中,我刚刚编写了一个函数来返回一个带有校准分类器的列表,StackingCVClassifier
我已经检查过这不会导致错误
备注2:我已经尝试从头开始执行堆叠器,结果相同,所以我认为我自己的堆叠器有问题
你能帮我理解堆叠分类器的正确用法吗?
编辑:
这是我校准分类器的代码。此函数接受 n 个分类器的列表并应用于sklearn fucntion CalibratedClassifierCV
每个分类器,并返回一个包含 n 个校准分类器的列表。您可以选择以 zip 列表的形式返回,因为此功能主要用于与sklearn's VotingClassifier
python - 如何使用 StackingClassifier + Logistic Regression(二元分类)找到系数的特征名称
我正在尝试将 StackingClassifier 与逻辑回归(二元分类器)一起使用。示例代码:
对于每个分类器,初始逻辑回归给出两个类别的概率值。当我使用堆叠 5 个分类器时,sclf.meta_clf_.coef_
给出 10 个权重值。
数组([[-0.96815163, 1.25335525, -0.03120535, 0.8533569, -2.6250897, 1.98034805, -0.361378, 0.00571954, -0.03206343, 0.53138651]])
我对重量值的顺序感到困惑。方法
(-0.96815163, 1.25335525)
第一个逻辑回归的前两个值是LR1
什么?(-0.03120535, 0.8533569)
是第一个逻辑回归的第二个两个值LR2
吗?
我想找出堆叠分类器的逻辑回归 (LR) 的值。
请帮忙。
python - 如何为 10 个特征添加填充特征值?
我正在尝试为我的 SVM 非线性决策边界添加填充特征值。我得到了这个错误Column(s) [1 5 6 7 8] need to be accounted for in either feature_index or filler_feature_values
。
这是我的代码:
我有 2 个输出类;1 类和 0 类。这是我的输入文件。输入
python - SequentialFeatureSelector ValueError:不支持连续格式
我是机器学习的新手,并试图从 sklearn 中理解 SequentialFeatureSelector 概念。我正在为 poc 使用 Anaconda 和 Jupyter 笔记本。我已经进口了
包裹。默认情况下 mlxtend 包不是 Anaconda 的一部分,然后我通过pip install mlxtend命令安装。
我已经为此 poc 使用了 sklearn 波士顿住房数据集,并执行了以下代码。在安装 sfs 时,我遇到了错误。
如何解决此错误?
错误
pycharm - 函数在 PyCharm 中而不是在 JuPyter Notebook 中引发 TypeError
我正在尝试创建一个函数,该函数使用来自 mlxtend 的 Apriori 算法挖掘和导出项目类别之间的关联规则。虽然这在 jupyter 笔记本中效果很好。当我将相同的函数复制到我的 pycharm 项目中时,出现类型错误。
在这两种情况下,我都使用了 mlxtend 0.15.0.0。