问题标签 [mlxtend]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 关联规则挖掘算法
我有一个这样的数据集:
我想以这种方式挖掘关联规则。如果一个人在'c1'中获得等级'a',他将在c2中获得'b'。这只是一个示例,但我想以这种方式挖掘关联规则. 我尝试了以下代码:
我没有得到预期的输出。你能说明一下吗?
python - 'plot_decision_regions' 中的 clf 和 legend 是什么?
plot_decision_regions中的参数“ clf ”和“ legend ”是什么?
python-3.x - 如何解释 Mlxtend 关联规则的结果
我正在使用mlxtend
查找关联规则:
这是代码:
输出:
我给了一个min support=0.4
. antecedentsupport
和consequentsupport
和有什么区别support
?
lift and leverage?
如何判断它的好坏是什么意思?
信心我可以理解这是输出中第一条规则一起发生的次数C
和次数。B
? 那是对的吗
python - 查找具有频繁项集的对应行
我的数据集是一个与客户购买信息相当的邻接矩阵。一个示例玩具数据集:
现在我对频繁项集感兴趣,所以我使用了一个 apriori fim:
现在我们看到项目集 (D,B) 出现在 75% 的数据集中。但我实际上对这个项目集出现的行感兴趣,因为索引有一些信息(哪个客户购买了这些项目)。
很快,我很好奇如何在我的数据集中过滤以查看哪些行对应于特定的项目集。这个包/库中是否有这样的功能。这样我就可以过滤第 0,1 行和第 2 行中出现的项目集 (D,B)?
scikit-learn - AttributeError 是什么意思:'ColumnSelector' 对象没有属性'n_features_in_'?
我正在进行网格搜索以调整堆叠估计器的超参数(来自 sklearn.ensemble 库的 StackingClassifier 对象)。我将 scikit 库用于 ML 和 RandomizedSearchCV 函数。除此之外,要调整的堆栈的基本估计器是管道(来自 imblearn.pipeline 库的管道对象),其中每个管道的第一步是来自 mlxtend 库的 ColumnSelector 对象。网格搜索旨在查看一长串变量组合,因此网格的参数分布仅通过 ColumnSelector 对象的参数“cols”。我第一次运行这段代码时,一切正常,然后我将项目搁置一旁,几天后回来发现它不再工作了。代码中的一切都和我留下的一样,
AttributeError:“ColumnSelector”对象没有属性“n_features_in_”
我不明白穿的是什么。我已经尝试了很多东西,甚至卸载了 Anaconda、mlxtend、imblearn,并重新安装了最新版本,但它一直在喊同样的错误。我在谷歌上进行了搜索,但似乎没有关于此的信息。
你能帮我解决这个问题吗?
提前致谢。
附录:scikit 版本是 0.23.1,mlxtend 版本是 0.17.3,不平衡学习版本是 0.7.0。
完整的回溯如下,对象 gr2 对应于用于调整堆叠分类器的 RandomizedSearchCV 对象。我想指出,如果我使用 mlxtend 中的 StackingClassifier 对象,一切正常,但该对象没有参数 cv,它确实有来自 sklearn.ensemble 的 StackingClassifier,我需要它以获得更好的性能(我以前在一切正常的时候就有过)。
python - 使用 mlxtend 计算方差、偏差 python 中的问题
我正在使用 mlxtend lib 进行偏差、方差计算。代码是,
我收到以下错误,
我尝试将 Xy 值用作 numpy 值。这也会产生错误。
对此有何建议?
python - 在 Python 中将列表列表转换为数组类型
我有一个这样的矩阵,想将其转换为数组进行处理。怎么做
我知道它应该是形式
通常我正在做的是将我的数组手动转换为上述形式并调用
python - Python中的市场篮子分析(关联规则挖掘)不会产生频繁项集
我很抱歉我的英语不好。
我有名为df_merge的订单数据,其中包含以下列:
order_detail_id | order_id | 产品编号 | 价格 | 数量 | desc_产品 | 类别 | 基本价格
我想用这些数据进行关联挖掘,我使用以下代码来预处理数据:
代码运行顺利,但是当我来到这段代码并使用 mlxtend 包时,除了标题之外,我对“frequent_itemsets”的结果一无所知。
频繁项集 = fpgrowth(df, min_support=0.1, use_colnames=True)
我不知道我做错了什么..有人可以帮助我吗?谢谢你。
pandas - 大型数据集的一种热编码
我想使用在 mlxtend 库 apriori 算法中实现的关联规则来构建推荐系统。在我的销售数据中,有关于 3600 万笔交易和 5 万种独特产品的信息。我尝试使用 sklearn OneHotEncoder 和 pandas get_dummies() 但两者都给出 OOM 错误,因为它们无法创建形状为 (36 mil, 50k) 的帧
还有其他解决方案吗?
machine-learning - 为什么顺序特征选择器不会删除 STD=0 的特征
我正在使用mlxtend
库运行功能选择:
但似乎保留了标准差 = 0 的特征
怎么会这样 ?
我读到包装方法假设可以提供最佳结果,并且似乎 STD=0 的特征需要成为第一个要排除的特征。
我错过了什么?