问题标签 [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3208 浏览

python - 错误:无法在 Python 中将参数转换为整数

我正在处理来自 Kaggle 的数据集,我想提取带有名称的 Pandas 列的标题。我使用以下代码:

但是,当我在 Azure 机器学习平台上将此代码作为 Python 代码运行时,出现以下错误:

问题可能出在映射代码中,因为如果我删除它,我会有一个带有标题而不是整数的列。

编辑:我也尝试了以下而不是 for 循环来映射,但我遇到了同样的错误:

0 投票
1 回答
57 浏览

r - R data.table - 在新列中设置值,其中其他列中的值 = 1

你可能会从 Kaggle 中认出这一点。我有多个名为 Soil_Type1 的列,一直到 Soil_Type40。如果该土壤类型不存在,则值为 0,如果存在,则值为 1。每行只能存在 1 种土壤类型。

我想创建一个新列,如果 Soil_Type1 = 1 则取值为 S1,如果 Soil_Type2 = 1 则取值为 S2 等。我可以蛮力进行,即每次一行。有没有办法循环这个?

编辑:

抱歉,这是您所说的可重现示例的意思吗?

0 投票
1 回答
13766 浏览

python-3.x - 将csv导入熊猫数据框时未读取所有行

我在这里尝试 kaggle 挑战,不幸的是我被困在一个非常基本的步骤。这应该归咎于我有限的python知识。我正在尝试通过执行以下命令将数据集读入熊猫数据框:

问题是你会发现这个文件有超过 300,000 条记录,但我只读取 7945、21。

现在我已经仔细检查了文件,我找不到关于第 7945 行的任何特别之处。任何可能发生这种情况的指针。看起来很普通的情况,希望遇到这个错误的人能帮帮我。

0 投票
0 回答
253 浏览

r - 比八年级学生聪明?Kaggle 人工智能挑战赛。R

我正在参与 Kaggle上的Allen AI 科学挑战赛。

挑战背后的想法是使用提供的训练数据(一组八年级科学问题以及四个答案选项,其中一个是正确答案和正确答案)以及任何其他知识源(维基百科,科学教科书等),以便它可以像(平均?)八年级学生一样回答科学问题。

我正在考虑对 R 中的问题进行第一次破解(只精通 R 和 C++;我不认为 C++ 将是解决这个问题的非常有用的语言)。在浏览了 Kaggle 论坛之后,我决定使用 TopicModels (tm)、RWeka 和 Latent Dirichlet Algorithm (LDA) 包。

我目前的方法是构建某种文本预测器,它在阅读提出的问题时会输出一串文本,并计算此输出文本与测试集中给出的四个选项之间的余弦相似度,并预测正确的选项是具有最高的余弦相似度。

我将使用训练数据、维基百科语料库以及一些科学教科书来训练模型,以使模型不会过拟合。

我在这里有两个问题:

  1. 整体方法有意义吗?

  2. 构建此文本预测器的良好起点是什么?将语料库(训练数据、维基百科和教科书)转换为术语文档/文档术语矩阵有帮助吗?我认为为所有来源形成 n-gram 会有所帮助,但我不知道下一步会是什么,即模型将如何准确预测并在阅读问题时输出一串文本(例如大小为 n) .

我已经尝试实施该方法的一部分;找出最佳主题数量并在训练集上执行 LDA;这是代码:

任何帮助将不胜感激!

0 投票
0 回答
1448 浏览

r - 在 R 中下载和读取 Zip CSV 文件

我正在尝试在 R 脚本中从 Kaggle 下载和读取压缩的 csv 文件。在研究了包括post1post2在内的其他帖子后,我尝试过:

read.table 命令引发错误:

我也试过:

解压会报错:

绕过解压缩命令,直接从压缩文件中读取

抛出错误:

我更喜欢使用临时文件,但在这一点上,如果我能让它工作,我将使用任何一种方法。

0 投票
1 回答
738 浏览

python - Pandas 无法访问我的 Documents 目录中的 json 文件

我正在尝试在我的机器上运行来自 Kaggle 的某人脚本的演示。相关线路是:

给出的错误是:

我正在笔记本电脑上的唯一用户上运行,这是我的笔记本电脑。在 Kaggle 上运行此脚本没有错误。

有任何想法吗?

0 投票
1 回答
2043 浏览

r - data.table 中圆括号前的点 .( )

我不熟悉这个df[, .(...), Col]符号。如果我遗漏了一些明显的东西,我深表歉意,但我找不到这种符号风格的参考,尽管它看起来非常有用。

它似乎正在实施聚合。根据下面代码中此符号的位置,我希望它来自 R 而不是来自,h2o但我尝试检查两者均无济于事。

该示例来自 Kaggle 比赛并且代码有效(重现它去这里):

我会喜欢文档和/或对此的一个很好的解释。

0 投票
1 回答
2889 浏览

python - TensorFlow 多类 ML 模型问题

我一直在尝试让张量流解决多类 kaggle 问题。基本上,数据包含 6 个特征,我已将其转换为所有数值观察。目标是使用这 6 个特征来预测行程类型,其中有 38 种不同的行程类型。我一直在尝试使用 tensorflow 来预测这些行程类型类。以下代码是我迄今为止所拥有的,包括我用来格式化 csv 文件的代码。代码将运行,但运行 1 的输出开始正常,然后在其余运行中输出相同的输出非常差。以下是运行时的输出示例:

和代码:

关于为什么运行会像这样退化的任何想法,将不胜感激。谢谢!

0 投票
2 回答
125 浏览

r - R 中的 do.call - Kaggle 启动脚本

当我为一个 Kaggle 比赛浏览启动 R 脚本时,我看到创建了这个函数来查找所有行的总和。这是代码:

有人可以解释一下这个函数发生了什么吗?

另外,这与使用 just 有何不同rowSums

0 投票
1 回答
3276 浏览

r - 将 kable 表设计为 pdf

我正在使用 kable 从解析为 pdf 的 R markdown 文档中的 data.frame 输出表格。

这是输出: 在此处输入图像描述

我想给桌子设计样式。具体来说,我想:

  • 增加单元格高度。传递给 kable() 函数的填充参数无效。
  • 使标题加粗。(不知道这个)。

我在一个函数中调用 kaggle(),然后将其调用到 .Rmd 文件中的块中。

谢谢你的帮助