问题标签 [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将 easy_install 与 sklearn-pandas 一起使用
我正在尝试安装 sklearn-pandas。
在我的尝试中:
我得到结果:
软件包设置脚本试图修改系统上不在 EasyInstall 构建区域内的文件,并且已中止。
EasyInstall 无法安全地安装此软件包,并且即使您手动运行其安装脚本,也可能不支持备用安装位置。请通知包的作者和 EasyInstall 维护人员,以了解是否有可用的修复或解决方法。
我在 Windows 7 上(我承认!),使用 Python 2.7.3
这是我第一次遇到这样的错误。我探索的可能想法是更基本的解决方案:
作者没有写这个包来安装easy_install 我有某种文件权限问题(?)有某种依赖关系问题
如果有人遇到此错误或对此有任何见解,请告诉我!非常感谢。
python - 如何在 sklearn 中一次在多个列上应用预处理方法
我的问题是我的熊猫数据框中有很多列,我正在尝试使用 sklearn-pandas 库中的数据帧映射器应用 sklearn 预处理,例如
我只是想知道是否还有另一种更简洁的方法可以一次预处理许多变量而无需明确写出它们。
我发现有点烦人的另一件事是,当我将所有 pandas 数据框转换为 sklearn 可以使用的数组时,它们会丢失列名特征,这使得选择非常困难。有谁知道在将 pandas 数据帧更改为 np 数组时如何将列名保留为键?
太感谢了!
python - 有没有办法在sklearn中的LabelBinarizer Transform之后跟踪哪个DataFrame Column对应于哪个Array Column?
我有一系列字符串类型的变量,我必须对它们进行转换才能使用 sklearn 估计器。
我正在使用库 sklearn_pandas 中的 DataFrameMapper。
在下面的示例中,我有一个包含 A、B、C、D、E 列的数据框。假设“A”、“B”和“C”是字符串特征:A 有 25 个唯一字符串,B 有 10 个唯一字符串,C 有 30 个唯一字符串。在通过 LabelBinarizer() 转换数据后,相应的矩阵将具有 25+ 10+ 30+ 1 (from D) +1 (from E) = 67 features。我如何知道哪一列对应于每个原始变量的先前字符串值?
如前所述,前 3 个是字符串变量,因此我必须进行以下转换:
其中 X 是大小矩阵 (num_features)*67
python - Imputer 具有不同类型的值
sklearn 中的 Imputer 是否可以处理不同类型的数据?
例如,字符串和数字都表示为?
,当应用 Imputer 时,它仅适用于一种策略。
scikit-learn - TypeError:不可散列的类型
我写了一小段代码来使用 sklearn 进行线性回归。
我创建了一个 2 列 csv 文件(列名 X、Y 和一些数字),当我阅读文件时,我看到内容已正确读取 - 如下所示。
但是,当我尝试使用命令等引用列时,出现“不可哈希类型”datafile[:,:]
错误datafile[:,-1]
。
当我尝试使用 X 作为响应,Y 作为 sklearn 的线性回归中的预测变量时,我得到如下所示的值错误。
我在网上查看但无法弄清楚我的代码或文件有什么问题。请帮忙。
scikit-learn - 如何在 sklearn 0.14 版中设置“class_weight”?
我知道class_weight
0.17 版本中有一个参数sklearn.ensemble.RandomForestClassifier
。
我无法安装 0.17。如何在 0.14 版本中访问此参数?
或者,是否有另一种方法来处理y values
a 中不平衡的标签 ( ) RandomForestClassifier
?我有一个二元分类器,其负数多于正数,这自然会扭曲结果,因此我想设置类权重来抵消这一点。
python - Sklearn SVM:SVR 和 SVC,对每个输入获得相同的预测
这是代码的粘贴:SVM 示例代码
我检查了这个问题的其他几个答案......似乎这个问题的特定迭代有点不同。
首先,我的输入是标准化的,每个点有五个输入。这些值的大小都是合理的(健康的 0.5 秒和 0.7 秒等——很少接近零或接近 1 的数字)。
我有大约 70 x 输入对应于它们的 70 y 输入。y 输入也被归一化(它们是我的函数在每个时间步之后的百分比变化)。
我初始化我的 SVR(和 SVC),训练它们,然后用 30 个样本外输入测试它们……并为每个输入获得完全相同的预测(并且输入的变化量合理——0.3、0.6 , 0.5 等)。我认为分类器(至少)会有一些差异......
这是我得到的代码:
以下是我的输入示例:
并且x_test
矩阵 (5x30)x_training
在输入的幅度和方差方面与矩阵相似......对于y_testr
和 也是如此y_testc
。
目前,所有测试的预测完全相同(回归为 0.00596,分类为 1...)
如何让 SVR 和 SVC 函数吐出相关预测?或者至少基于输入的不同预测......
至少,分类器应该能够做出选择。我的意思是,即使我没有为回归提供足够的维度......
pandas - 在 scikit-learn 中使用 Featureunion 为 tfidf 组合两个 pandas 列
在将其用作垃圾邮件分类的模型时,我想添加主题和正文的附加功能。
我在 pandas 数据框中拥有我的所有功能。例如,主题是 df['Subject'],正文是 df['body_text'],垃圾邮件/火腿标签是 df['ham/spam']
我收到以下错误:TypeError: 'FeatureUnion' object is not iterable
如何在通过管道功能运行 df['Subject'] 和 df['body_text'] 作为所有功能?
python - SKlearn 随机森林输入错误
我正在尝试为我的随机森林运行拟合,但出现以下错误:
forest.fit(train[features], y)
返回
我已将我的数据框从 float64 强制转换为 float32 以获取我的功能,并确保没有空值,因此不确定是什么引发了此错误。让我知道添加更多我的代码是否会有所帮助。
更新
它最初是一个 pandas 数据框,我删除了所有的 NaN。原始数据框是带有受访者信息的调查结果,除了我的 dv 之外,我放弃了所有问题。我通过运行rforest_df.isnull().sum()
which 返回 0 再次检查了这一点。这是我用于建模的完整代码。
更新
这就是 y 数据的样子
python - 熊猫试图告诉我的警告是什么?
我有以下代码,它仅具有一个函数,该函数接收输入数据帧并输出将它们分组label
并求和的版本。
引发以下警告:
两件事情:
1)当我在这里查看警告时, 它似乎与我无关。我没有像chained-indexing
警告中提供的链接那样做任何事情。
2)当我尝试在函数之外重现错误时,由于某种原因我不能:
...它们都运行得很好。
是否有另一种方法可以重现此警告,它是否适用于此处?谢谢。