问题标签 [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pandas 和 scikit 的梯度提升分类器稀疏矩阵问题
我一直在使用以下代码进行多类分类,它使用来自 scikit-learn 的 GradientBoostingClassifier。我面临一个将稀疏矩阵转换为密集矩阵的已知问题。
我已经应用了以下解决方案stackoverflow,但它不适用于我的情况。虽然我使用的解决方案适用于 RandomForestClassifier,但 AFAIK 它应该适用于 GradientBoostingClassifier!
如果我用 RandomForestClassifier 替换 GradientBoostingClassifier,也可以完美地添加此代码。
本例中的数据是具有 8 个目标类的 93 个数字特征。数据可以从Kaggle获取
追溯:
r - R:强制引入的 Kaggle Titanic 数据集随机森林 NA
我目前使用泰坦尼克号数据集在 Kaggle 上练习 R 我正在使用随机森林算法
下面是代码
我收到以下错误
我的数据如下所示
如果我只输入以下内容,我没有强制问题,据我所知,这是唯一发生强制以创建 NA 值的地方
任何人都可以看到问题
感谢您的时间
r - 如何在关于泰坦尼克号的 Kaggle 比赛中使用 Rs 神经网络包
我正在尝试为有关泰坦尼克号的 Kaggle 竞赛运行此代码以进行锻炼。它是免费的,是初学者的案例。我在这个包中使用 R 中的神经网络包。
这是来自网站的火车数据:
在这里,我根据幸存者训练神经网络。我想看看我是否可以预测谁幸存下来:
网络是训练好的。我加载测试数据并准备测试。
预测的最终测试:
首先,我不知道我应该采取多少隐藏的神经元。有时需要很长时间,当我成功时,我无法使用测试数据进行测试,因为发生错误,表明两个数据集不兼容:
我在这里做错了什么?
整个代码:
python - Pandas 错误 - 遇到无效值
我是熊猫新手。我下载并安装了Anaconda。然后我尝试通过 Spyder 应用程序运行以下代码:
尽管这会按我的预期打印数据帧,但它也显示了这些错误
为什么我会收到这些错误?
编辑:我刚刚在IPython
笔记本中测试了上面的代码,它可以正常工作。那么,我的Spyder
安装有问题吗?任何帮助,将不胜感激。
EDIT2:经过一些测试,我可以读取 CSV 的前 5 行而不会收到警告。因此,我怀疑类型列NaN
的第 6 行中的 afloat64
正在触发警告。
python - 在实例化时自动调用 Python 类方法的最佳方式
我有一个机器学习算法,它涉及一系列步骤,例如清理数据、准备训练数据等。每个步骤都存储在 python 类的单独方法中。我想知道构造我的类的最佳实践方法是什么,以便在类实例化时自动执行这些步骤。
这是我所做的(代码是说明性的,但这种方法适用于真正的算法)。感觉有点笨拙。有没有更优雅的方式?
r - Kaggle Titanic:用于客舱预测的灾难决策树的机器学习
其中一个变量“Cabin”具有大量的 NA。我正在尝试使用决策树(rpart)来预测客舱不可用的乘客的客舱甲板。
目前,这是我的数据表的结构,它是训练集和测试集的 rbind。
请注意,我使用 strsplit 创建了“Cabin2”,它提取了“Cabin”变量的字母,据我了解,它对应于泰坦尼克号上的甲板。这大大减少了我与“小屋”战斗的关卡数量,从 187 个“小屋”减少到“小屋 2”的 8 个。
我正在尝试使用以下代码来预测机舱甲板:
我被 R 抛出的输出如下:
当我继续摆弄这些数据时,我拼命地试图弄明白这一点,但是我想知道为什么这段代码对我不起作用。
r - Ggvis 条形图 - 选择颜色
我正在使用 Kaggle ' train ' 数据集。
它包含 891 行。我使用的列是~Survived。此列由因子值“0”和“1”组成。
我使用以下代码行绘制了这两个值:
结果如下所示:
我想将值“0”的条形图设为红色,将值“1”的条形图设为绿色。
有人可以帮我吗?
先感谢您。
python - Python 代码在 Visual Studio 2013 中与 PTVS 循环运行
我有一个简单的 Python 代码(来自 Kaggle 的数字识别练习),如果我从命令行执行它,它运行良好(我使用 Windows 8.1 64 位和 Enthought Canopy 1.4.1)。
我决定将我所有的开发迁移到 Visual Studio,所以我安装了 Python Tools for Visual Studio 2.1 以直接从 VS Community 2013 开始编码/运行。(注意:安装顺序:(1)Canopy,(2)VS2013,和(3)PTVS。)
然而,同样的代码在 VS2013 中执行时表现得非常奇怪。它一直运行到交叉验证步骤,然后开始循环代码并一遍又一遍地重新运行所有内容,有时会在其途中吐出错误消息,如下所示:
如您所见,一旦到达交叉验证步骤,它就会从头开始,并随机遍历代码以仅执行其中的某些部分!
有任何想法吗?