问题标签 [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scikit-learn - sklearn Pipeline 和 DataFrameMapper 有什么区别?
Sklearn 管道:http ://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html
DataFrameMapper:https ://github.com/paulgb/sklearn-pandas
他们之间有什么区别?
在我看来,sklearn 管道具有更多功能,但 DataFrameMapper 对我来说更干净。
python - 处理 tf-idf 中不兼容的矩阵形状
我正在尝试匹配两个不同数据框 df1 和 df2 的公司名称。我正在尝试在两列上实现 tf-idf 和余弦相似度——df1 中的 company1 和 df2 中的 company2。
这给了我一个错误:
这可能是因为:
给我 (78684, 46844) 作为输出。和 -
给我 (39462, 31089) 作为输出。我该如何纠正这个错误?
python - 熊猫中的read_table,如何从文本获取输入到数据框
这是我的文本,我需要创建一个数据框,其中 1 列用于州名称,另一列用于城镇名称,我知道如何删除大学名称。但是我如何告诉熊猫每次[编辑]都是一个新状态。
预期输出数据帧
我不确定我是否可以使用 read_table,如果可以的话?我确实将所有内容都导入了数据框中,但州和城市在同一列中。我也尝试了一个列表,但问题仍然是一样的。
我需要一些东西,如果该行中有一个 [edit],那么它之后和下一个 [edit] 行之前的所有值都是中间行的状态
machine-learning - 哪些观察与带有 sklearn 包实现的 LDA 中的主题模型相关联
我已经在 Sklearn 中成功实现了这个例子,我可以很好地看到主题,但是我如何恢复到形成这些主题的观察结果?我知道使用 SAS 企业矿工可以做到这一点,但我不知道如何在 sklearn 中做到这一点。任何帮助,将不胜感激!谢谢你。
python - 将 IMDB 数据用于 sci-kit 回归模型包,该包在特征变量中具有文本值
我有一个包含 IMDB 电影收视率数据的 csv 文件。该文件有 27 个特征和 1 个目标变量。我附上了SampleData。数据集也可以从KaggleData下载。我了解到python 的sklearn包要求所有数据都是数字。那么如何使用这些数据进行回归分析呢?现在我使用了下面的代码,但它说“某些导演名称”不能转换为浮点数。
python - 数据框中多列的LabelBinarizer
我有一个 csv 文件,它有 25 列,有些是数字的,有些是分类的,有些是演员、导演的名字。我想对这些数据使用回归模型。为此,我必须使用 scikit 包中的 LabelBinarizer 将分类列字符串类型转换为数值。如何在此具有多个分类数据的数据帧上使用 LabelBinarize?
本质上,我想对标签进行二值化并将它们添加到数据框中。
在下面的代码中,我检索了要二值化的列列表,但无法弄清楚如何将新列添加回 df?
在下一步中,我想添加tempdf
并df
删除原始列 df[col]。
python - 为什么 ShuffleSplit 比 train_test_split 更多/更少随机(使用 random_state=None)?
考虑以下两个选项:
这是输出的副本:
谁能帮助解释为什么选项 B 中的 ShuffleSplit 函数比选项 C 中的 train_test_split 函数(random_state=None)呈现更多随机结果?
python-2.7 - ValueError:此求解器需要数据中至少 2 个类的样本,但数据仅包含一个类:0.0
在将数据集拆分为测试集和训练集后,我在训练集上应用了逻辑回归,但出现了上述错误。我试图解决它,当我尝试在控制台中打印我的响应向量 y_train 时,它会打印整数值,例如 0 或 1。但是当我将它写入文件时,我发现这些值是浮点数,例如 0.0 和 1.0。如果那是问题,我怎么能克服它。
StrackTrace如下,
同时,我浏览了未答复的链接。有没有解决办法。
python-3.x - 将多个管道作为投票分类器的输入 - sklearn
我正在尝试构建一个以多个管道作为输入的投票分类器。我对此很陌生。以下是我正在使用的代码:
该代码基本上构建了 4 个分类器——多项式朴素贝叶斯、SGD 分类器、带线性核的 SVM 和随机森林分类器。当我尝试拟合我的数据时,它给了我以下错误:
could not convert string to float: "training string here"
如果我尝试在单个分类器上调用 fit,则该模式运行良好。有人可以帮忙吗?