问题标签 [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - kaggle titanic Subset Women and Children
I am trying to make a feature variable from the Titanic dataset on kaggle by pulling specific information from two variables but I can't figure out how to code it. I want to combine the "Sex" variable and the "Parch" variable. What I want is if the passenger is a female with children or parents they should be coded as 1 in a new variable called "WomenandChildren." If they are a woman without children/parents or a male with or without children they should be coded as a 0.
My theory is that women with children were more likely to survive then women without children or men with or without children.
python - python中的KFold到底是做什么的?
我正在看这个教程:https ://www.dataquest.io/mission/74/getting-started-with-kaggle
我到了第 9 部分,做出预测。其中有一些数据称为泰坦尼克号,然后使用以下方法将其分成折叠:
我不确定它到底在做什么以及 kf 是什么类型的对象。我尝试阅读文档,但没有太大帮助。另外,一共有三折(n_folds=3),为什么后面只能在这一行访问train和test(我怎么知道他们叫train和test)?
python - xgboost: AttributeError: 'DMatrix' 对象没有属性 'handle'
这个问题真的很奇怪,因为那部分与其他数据集一起工作得很好。
完整代码:
最后一行导致以下错误(提供完整输出):
这里有什么问题?我不知道如何解决这个问题
UPD1:实际上这是 kaggle 问题:https ://www.kaggle.com/insaff/bnp-paribas-cardif-claims-management/xgboost
r - 在 R 中为 Kaggle Titanic 数据集调整 SVM 时出错
我正在尝试使用 Titanic Kaggle 数据集在 R 中完成对 SVM 模型的调整。
当我运行以下代码时:
我得到错误:
使用回溯:
我知道我的变量可能有问题 - 有没有想过这可能是什么?
如果有帮助,我没有修改任何变量,但删除了一堆(在调整公式中没有看到并通过以下方式创建了一个新变量family
:
船是一个data.table
。
python-3.x - Python 3.+,Scipy Stats Mode 函数给出类型错误不可排序的类型:str() > float()
我正在尝试解决 kaggle 泰坦尼克号灾难问题,特别是使用众数/平均值/中位数来输入缺失值。这是我的数据集的一个峰值
我正在尝试获取“Embarked”列的模式并输入“Object”。我正在使用python3。这是代码片段:
这是错误片段:
scikit-learn - Scikit-learn TruncatedSVD 文档
我打算在sklearn.decomposition.TruncatedSVD
Kaggle 比赛中使用 LSA,我知道 SVD 和 LSA 背后的数学,但我对 scikit-learn 的用户指南感到困惑,因此我不确定如何实际应用
TruncatedSVD
。
在doc中,它指出:
这次手术后,
U_k * transpose(S_k)
是具有特征的转换训练集k
(n_components
在 API 中调用)
为什么是这样?我想在SVD之后,X
此时X_k
应该是U_k * S_k * transpose(V_k)
?
然后它说,
为了也转换一个测试集
X
,我们将它乘以V_k
:X' = X * V_k
这是什么意思?
linux - 将代码段的十六进制表示转回二进制
微软在 Kaggle 挑战赛 ( https://www.kaggle.com/c/malware-classification/data ) 中提供的恶意软件样本包含 代码段的十六进制表示。一个例子:
我想将它们转换回二进制格式,以便进一步将它们转换为图像(并节省空间)。
我试过xxd -r -p
了,但输出不正确。xxd
以某种方式也对地址进行编码00401000
,而我想摆脱地址。
有没有快速的方法来做到这一点?
python - Python seaborn 图形
亲爱的,我正在尝试将 kaggle 教程代码应用于 Iris 数据集。
不幸的是,当我执行图表的代码时,我只能看到这个输出而没有看到任何图表:
matplotlib.axes._subplots.AxesSubplot at 0x9abf9b0
任何想法?
这是代码
r - 使用 docker kaggle 映像运行 r 脚本
我正在尝试R script
在我的本地Windows OS
重现结果(重现它在 kaggle 服务器上给出的结果)。为此,有人建议使用docker images
在我的本地运行 r 脚本。
我已经安装了 docker 并按照此处给出的说明完成了设置步骤https://docs.docker.com/windows/step_one/
安装后,我正在努力研究如何创建 kaggle R 图像并使用本地资源/数据在我的本地运行 R 脚本。有人可以帮我解决这些吗?
python-3.x - Python 3.x - 合并熊猫数据框
我在 Kaggle 上使用 Python 进行泰坦尼克号灾难竞赛。数据集 (df) 包含对应于每位乘客的 3 个属性——“性别”(1/0)、“年龄”和“Pclass”(1/2/3)。我想获得与每个 Gender-Pclass 组合相对应的中位年龄。
最终结果应该是一个数据框 -
中位年龄稍后计算
我尝试按如下方式创建数据框 -
但获得的输出是 -
有人可以帮我获得所需的输出吗?