问题标签 [scikits]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用不完整数据按人口统计对用户进行分类
我有一些包含用户名及其各自性别的数据。例如,我的数据列表中的条目可能如下所示:{User: 'abc123', Gender: 'M'}
对于每个用户名,我还会收到一袋文本、图像和附加到每个用户名的位置,尽管用户不必至少附加一个文本、一个图像和一个位置。
对于每个数据源,我可以将它们转换为特征向量,然后将其输入分类器。然后我可以通过 10 倍交叉验证来确认分类器是否有效。
我想结合所有分类器的一些输出,以便我可以将它们输入元分类器,以提高准确性。
问题在于,由于数据不完整,我不能简单地将每个数据源生成的所有向量组合起来,并将它们输入一个分类器。一些用户可能没有图像数据,或者其他用户可能没有位置数据。
我目前的想法是使用每个分类器为每个用户获取一些类别概率集,例如从每个数据源的分类器中获取[男性:0.75,女性:0.25],将所有类别的值相乘,并使用最高的值作为程序的预测类别。
因此,如果每个数据源(文本、图像、位置)都有 1 个分类器,那么我总共有 3 个分类器。即使某些用户缺少一两个数据源,我仍然可以获得这些用户的类别概率集。
scikit-learn 是否有任何算法可以输出用户属于某种性别的概率权重,而不仅仅是对它们进行分类?
还是有其他满足我需求的算法?
感谢您浏览我的文字墙!
python - scikit Lasso/LARS 如何用作回归特征选择工具?
我有大约 22 个数据预测变量 x_i,我想减少到一定数量以便最好地描述 y。基本问题...但是,我很不清楚如何使用 scikit 和 linearmodel.lassoLars 来执行此任务。
从他们的示例文档中,代码类似于:
所以它执行回归和套索,但我不确定如何使用 y_pred_lasso 来输出我想要的,即来自 22 个最能描述 y_train 的原始预测变量的变量。
python-2.7 - 使用 scikit-learn 去除低方差的特征
scikit-learn 提供了各种删除描述符的方法,下面给出的教程已经提供了用于此目的的基本方法,
http://scikit-learn.org/stable/modules/feature_selection.html
但是本教程没有提供任何方法或方式可以告诉您保留已删除或保留的功能列表的方法。
下面的代码取自教程。
上面给出的示例代码只描述了两个描述符“shape(6, 2)”,但在我的例子中,我有一个巨大的数据框,形状为(第 51 行,第 9000 列)。在找到合适的模型后,我想跟踪有用和无用的特征,因为我可以通过只计算有用的特征来节省计算测试数据集特征的计算时间。
例如,当您使用 WEKA 6.0 执行机器学习建模时,它在特征选择方面提供了极大的灵活性,并且在删除无用特征后,您可以获得丢弃特征的列表以及有用特征。
谢谢
machine-learning - Scikit 学习支持向量机的多类分类
我想知道LinearSVC
默认情况下是否支持多类分类,还是我们必须 OneVsRestClassifier
像这样包装它:
machine-learning - 在 scikit learn 中对标记和未标记数据使用高斯混合模型?
我有一些数据,其中一些被标记,一些没有被标记。我需要应用期望最大化算法。是否可以在 Sci-kit learn 中应用它?任何标记+未标记实例的示例都会有所帮助。
python - 安装 scikits-samplerate 时的 MissingSectionHeaderError(fpname, lineno, line)
我尝试通过 pycahrm 安装 pip,但出现以下错误:
所以我去了给定的链接并下载了所需的文件。我再次运行安装并得到同样的错误。
我去了这里:http ://cournape.github.io/audiolab/installing.html#download
并发现:“...您需要创建一个文件 site.cfg 来设置 libsndfile 及其标头的位置(有 site.cfg 示例应该让您了解如何在您的平台上使用它们)。”
在我从以下位置下载模块后:https://pypi.python.org/pypi/scikits.samplerate,(我检查了记事本++中的示例,它说的是:'[samplerate]')我创建了文件,这就是放入其中的内容:
我做了 python setup.py install 并收到以下错误:
Config.parser.MissingSectionHeaderError:文件包含节标题。C:\...\site.cfg,第 1 行'C:\Program Files (x86)\Mega-Nerd\libsndfile
它在寻找什么标题?如何修复此错误以便我可以安装 scikts-samplerate?
cuda - 使用 NVIDIA 的 cuSolver 库的 Pycuda 中的分段错误
我正在尝试制作一个受scikits-cuda库启发的 pycuda 包装器,对于 Nvidia 的新 cuSolver 库中提供的一些操作,首先我需要通过 cusolverDnSgetrf() op 执行 LU 分解。但在此之前我需要“工作区”参数,cuSolver 提供的用于获取该参数的工具名为 cusolverDnSgetrf_bufferSize(); 但是当我使用它时,只是崩溃并返回一个分段错误。我做错了什么?
注意:我已经用 scikits-cuda 处理了这个操作,但是 cuSolver 库使用了很多这种参数,我想比较 scikits-cuda 和我的实现与新库之间的用法。
python - cuSolver 在 pycuda 上的 getrs 函数无法正常工作
我正在尝试为 Nvidia 的新 cuSolver 库中提供的一些操作制作一个受 scikits-cuda 库启发的 pycuda 包装器。我想通过 LU 分解求解 AX=B 形式的线性系统,首先使用 scikits-cuda 中的cublasSgetrfBatched方法执行该方法,这给了我分解 LU;然后通过该因式分解,我想使用我想要包装的cuSolve中的 cusolverDnSgetrs 来求解系统,当我执行计算返回状态 3 时,假设给我答案的矩阵不会改变,但 *devInfo 为零,查看 cusolver 的文档说:
CUSOLVER_STATUS_INVALID_VALUE=向函数传递了一个不支持的值或参数(例如,一个负向量大小)。
输出:
[0]
3
我做错了什么?
python - 使用 scikit-learn 标记文本
我有以下代码从一组文件(文件夹名称是类别名称)中提取特征以进行文本分类。
它抛出以下堆栈跟踪:
我运行 Python 2.7。我怎样才能让它工作?
编辑:
我刚刚发现这对于带有utf-8
编码的文件非常有效(我的文件已ANSI
编码)。有什么方法可以让我sklearn.datasets.load_files()
使用ANSI
编码?
python - Scikit 多类分类指标,分类报告
我正在使用 scikit learn 0.15.2 解决多类分类问题。在我开始使用 MultiLabelBinarizer 之前,我在遵循以下示例时收到了很多 DeprecationWarnings,如下所示:scikit 0.14 多标签指标:
“DeprecationWarning:从 0.17 版开始,将无法直接支持序列多标签表示。使用 sklearn.preprocessing.MultiLabelBinarizer 转换为标签指示表示。”
但是,我找不到一种方法来让分类报告(精确度、召回率、f-measure)与它一起工作,因为我以前可能如此处所示:scikit 0.14 multi label metrics
我尝试使用 inverse_transform 如下,这给出了一个分类报告,但也再次给出了警告,从 0.17 开始,此代码将中断。
如何获得多类分类问题的度量?
示例代码: