问题标签 [data-science-experience]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

237 问题

0 投票

1 回答

1749 浏览

python - 如何让 SFTP 在 DSX 中的 python Notebook 中工作？

我发现 ftplib 在 DSX IBM Datascience Experience 上可用

但是 SFTP 连接在 python 笔记本中的外观如何？这样我就可以自动导入本地数据。TIA

python sftp data-science-experience

2017-02-22T18:16:45.720

0 投票

0 回答

65 浏览

r - 我可以建立 N 个模型和预测吗

让我们考虑数据集是一家银行（预测贷款），它包含以下属性。

我已经将几乎所有属性都转换为因子，其余的都使用离散函数进行转换，即年龄、公司、ccavg 和抵押。然后将这些变量转换为因子，以便将其传递给决策树算法

Inc、CCavg 和 Mortgage 也是如此。让我们考虑离散化范围为 5-12 的 bin 值，即每个属性共有 8 个 bin 值，可能的排列可能是 8P4 = 1680。我可以每次将 TRAIN、TEST、EVALUATION 数据传递给 DTrees 并获得具有准确性的预测以下方式。

同样对于 test, eval 来创建 rcTest 和 rcTrain 。让精度为

这里的问题是，有什么方法可以使用函数（或其他方式）对训练数据进行建模，并使用上述 8P4 的 bin 排列预测训练、测试、评估数据，并将输出存储在由 6 个属性组成的数据框中

如果我在安排和其他错误方面有错误，请纠正我。

有什么方法可以解决这个问题？

r analytics data-analysis data-science data-science-experience

2017-02-25T08:48:06.140

0 投票

2 回答

2704 浏览

lambda - lambda rdd.map 给出：TypeError: unsupported operand type(s) for -: 'Row' and 'float'

rdd.map 给出： TypeError: unsupported operand type(s) for -: 'Row' and 'float'

我使用以下数据框创建了一个 rdd：

然后我想对其中的所有对象进行计算（基本上在我现在认为是它自己的 rdd 的“结果”列中）：

但我得到：

文件“/usr/local/src/spark20master/spark/python/pyspark/rdd.py”，第 999 行，返回 self.mapPartitions(lambda x: [sum(x)]).fold(0, operator.add)文件“”，第 7 行，类型错误：不支持的操作数类型 -: 'Row' 和 'float'

我的意思是浮动。我期望 x 的值是浮点数；但我猜是读作 Row 。哦，我做错了什么？谢谢。

lambda pyspark rdd data-science-experience

2017-02-27T10:55:19.970

0 投票

1 回答

73 浏览

data-science-experience - 如何从 DSX 访问 spark 历史服务器？

我需要访问 Spark History Server，以便对慢速 Spark 作业进行性能调整。

我在 DSX 中寻找一个链接，但找不到，所以我在 Bluemix 控制台中打开了 spark 服务，并直接从那里导航到 spark 历史服务器（Job History 链接）。

有没有办法直接从 DSX 访问 spark 历史服务器？

data-science-experience

2017-03-07T06:30:29.720

0 投票

3 回答

1526 浏览

apache-spark - Spark 历史服务器未显示“完整”应用程序

我正在尝试对运行缓慢的 DSX 作业进行性能调整。

我已经从 Bluemix 上的底层 spark 服务导航到 spark 历史服务器（根据这个问题）。

我已经执行了一个包含一些基本火花代码的单元格：

然后我在浏览器中刷新了 Job History Server 页面，但是 spark 历史服务器没有显示任何完整的应用程序：

我怎样才能找到“完整”的应用程序？

更新

我所指的 spark 服务是 IBM 在 Bluemix 上的托管 spark 服务，因此我无法控制配置。

更新 2

看起来日期已经损坏，这就是为什么我没有看到已完成的工作：

apache-spark ibm-cloud data-science-experience

2017-03-07T06:43:29.227

0 投票

3 回答

357 浏览

apache-spark - 无法解析主 URL：“spark.bluemix.net”

我正在尝试从在我的桌面机器上运行的 RStudio 连接到 IBM 的 Spark as a Service 在 Bluemix 上运行。

我已经config.yml从运行在 IBM 的 Data Science Experience 上的自动配置的 RStudio 环境中复制了：

我正在尝试像这样连接：

错误：

stackoverflow 上还有一些其他问题带有类似的错误消息，但它们并未尝试连接到在 Bluemix 上运行的 Spark 服务。

更新 1

我已将 config.yml 更改为如下所示：

...和我的连接代码看起来像这样：

但是，现在的错误是：

apache-spark ibm-cloud rstudio sparklyr data-science-experience

2017-03-07T10:03:39.313

0 投票

1 回答

38 浏览

data-science-experience - 如何将 DSX Notebook 迁移到 Spark 2.0？

它目前与 Spark 1.6 相关联，但我想使用 SparkSession 以及 Spark 中的其他新功能。如何在不将每个单元格复制到新笔记本的情况下进行迁移？

data-science-experience

2017-03-20T22:16:37.897

0 投票

0 回答

92 浏览

python - 如何使用 Python SDK 将内存中对象传递给 Watson Visual Recognition 服务

我正在使用 IBM 数据科学体验笔记本为视觉识别服务创建自定义分类器。我已将训练 zip 文件加载到对象存储中。但是当我尝试创建自定义分类器时，它会失败并显示错误消息

“解释”：“无法执行学习任务：无法训练分类器。验证至少有 10 个正面训练图像用于至少 1 个类别和至少 10 个其他唯一训练图像。”

我正在使用 Swiftclient 访问对象存储，然后将内容转换为 BytesIO 以将其传递给 create_classifier 函数

python ibm-cloud watson object-storage data-science-experience

2017-03-22T02:07:11.187

0 投票

2 回答

82907 浏览

python - 如何在 PySpark 中读取从 Spark 编写的镶木地板？

我正在使用两个 Jupyter 笔记本在分析中做不同的事情。在我的 Scala notebook 中，我将一些清理过的数据写入 parquet：

然后我去我的 Python notebook 读入数据：

我收到以下错误：

我查看了 spark 文档，我认为我不应该被要求指定模式。有没有人遇到过这样的事情？保存/加载时我应该做其他事情吗？数据登陆对象存储。

编辑：我在读和写时都在唱 spark 2.0。

edit2：这是在 Data Science Experience 的一个项目中完成的。

python scala apache-spark pyspark data-science-experience

2017-03-24T04:02:36.677

0 投票

2 回答

676 浏览

r - 如果我在 DSX 上的 R 笔记本中使用 write.csv，我在哪里可以找到 CSV 文件

我在 R 笔记本中对一些数据进行了评分，并使用 write.csv 方法创建了存储在数据框中的评分数据的 CSV 文件。在 DSX 上检索此文件的最佳方法是什么？

r csv jupyter-notebook data-science-experience

2017-03-31T17:36:53.250

1 2 3 4 5 6 7 8 9 10