问题标签 [apache-zeppelin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2418 浏览

apache-spark - 小数据集的执行速度非常慢——从哪里开始调试?

我在 MacBook(i5、2.6GHz、8GB 内存)上使用 Zeppelin NB 和 Spark 在独立模式下进行了一些实验。spark.executor/driver.memory 都得到 2g。我也在spark.serializer org.apache.spark.serializer.KryoSerializerspark-defaults.conf 中设置了,但这似乎被 zeppelin 忽略了


ALS模型

我已经训练了一个具有约 400k(隐式)评级的 ALS 模型,并希望获得建议val allRecommendations = model.recommendProductsForUsers(1)

样本集

接下来我拿一个样本来玩

这包含 3600 条建议。

移除用户拥有的产品推荐

接下来我想删除给定用户已经拥有的产品的所有评级,我在 RDD 中保存的列表 (user_id, Set[product_ids]):RDD[(Long, scala.collection.mutable.HashSet[Int])]

问题 1在缓存样本集上 调用此 ( productRecommendations.count) 会生成一个包含flatMap at MatrixFactorizationModel.scala:27810,000任务、263.6 MB 输入数据和 196.0 MB 随机写入的阶段。不应该使用微小的和缓存的RDD吗?这里发生了什么(wr)on(g)?计数的执行需要将近 5 分钟!

问题 2usersProductsFlat.count根据应用程序 UI 中的“存储”视图完全缓存的 调用每次大约需要 60 秒。它的大小为 23Mb – 不应该快很多吗?

映射为可读形式

接下来,我以某种可读的形式将 ID 替换为广播查找 Map 中的名称,以放入 DF/表中:

选择……耐心

疯狂的部分从这里开始。做一个 SELECT 需要几个小时(我永远不能等待一个完成):

查询几乎永远


我不知道在哪里可以找到这里的瓶颈,这里显然发生了一些巨大的混乱!我可以从哪里开始寻找?

0 投票
1 回答
3456 浏览

scala - Spark DataFrame过滤:保留属于列表的元素

我在 Zeppelin 笔记本上使用带有 Scala 的 Spark 1.5.1。

  • 我有一个 DataFrame,其中有一列名为 userID 的 Long 类型。
  • 我总共有大约 400 万行和 200,000 个唯一用户 ID。
  • 我还有一个要排除的 50,000 个用户 ID 的列表。
  • 我可以轻松构建要保留的用户 ID 列表。

删除属于要排除的用户的所有行的最佳方法是什么?

提出相同问题的另一种方法是:保留属于用户的行的最佳方法是什么?

我看到了这篇文章并应用了它的解决方案(参见下面的代码),但执行速度很慢,因为我知道我在本地机器上运行 SPARK 1.5.1,我有 16GB 的良好 RAM 内存并且初始 DataFrame 适合记忆。

这是我正在应用的代码:

在上面的代码中:

  • initialDataFrame 有 3885068 行,每行有 5 列,其中一列称为 userID,它包含 Long 值。
  • listOfUsersToKeep 是一个 Array[Long],它包含 150,000 个 Long 用户 ID。

我想知道是否有比我正在使用的更有效的解决方案。

谢谢

0 投票
4 回答
6668 浏览

apache-zeppelin - Apache Zeppelin - 设置默认解释器

在 Zeppelin 中,每一行我都必须在每一行提供口译员。有没有办法为整个会话设置解释器。

用了 0 秒。


控制台:1:错误:'。' 预期但找到标识符。将熊猫导入为 pd


用了 0 秒。


如何为整个会话设置口译员?

0 投票
2 回答
5117 浏览

apache-spark-sql - 在 Zeppelin 中使用 %pyspark 解释器注册表时,我无法访问 %sql 中的表

我正在使用 Zeppelin 0.5.5。我在此处为 python 找到了此代码/示例,因为我无法自己使用 %pyspark http://www.makedatauseful.com/python-spark-sql-zeppelin-tutorial/。我感觉他的 %pyspark 示例有效,因为如果您使用原始的 %spark zeppelin 教程,则“银行”表已经创建。

此代码在笔记本中。

此代码在同一个笔记本中,但在不同的工作台上。

0 投票
2 回答
7913 浏览

sql - Apache - Zeppelin 跨段落使用变量

我正在尝试在 Apache Zeppelin 上完成以下用例:sql例如,当我编写查询时

我得到一个显示这些值(1,2,3,4)作为选项的组合框。我想要做的是用该列可用的所有不同值填充这个列表(或者事实上,我可能想从另一个段落中以变量的形式获取任何其他值集)。所以目前我被困在如何sql在另一段的语句中使用一段中定义的一些变量?

深入研究代码,我看到在 Zeppelin-interpreter 内部,一个名为Input.javachecks for a pattern的文件${someColumn=someValues}填充了组合框选项,然后创建了一个简单的查询,因此我放弃了通过运行查询来填充它的想法在同一段中。

0 投票
1 回答
280 浏览

apache-zeppelin - Apache Zeppelin 教程失败

最近我使用 git 从 git 安装了 Zeppelin, mvn clean package -Pspark-1.5 -Dspark.version=1.5.1 -Phadoop-2.4 -Pyarn -Ppyspark -DskipTests但由于此错误,我无法运行教程:

知道为什么会这样吗?我没有修改任何 conf 文件,因为我有兴趣使用嵌入式 Spark 二进制文件运行它。

我已经在这里检查了大部分线程,但没有一个有效。

谢谢

编辑:我使用的是 Mac

0 投票
1 回答
552 浏览

amazon-web-services - 带有 zeppelin 的 pyspark 是 emr 给出 NoClassDefFoundError

我在 emr 上运行 zeppelin 以使用 pyspark 处理一些日志文件。

我收到此“java.lang.NoClassDefFoundError:com/amazonaws/services/s3/AmazonS3”错误。

不知道如何解决它。我查看了各种资源。帮助表示赞赏。

--- 错误日志---

Py4JJavaError:调用 o188.partitions 时出错。: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3 在 com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:99) 在 org.apache.hadoop.fs.FileSystem。 createFileSystem(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660) 在 org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374) 在 org.apache.hadoop.fs.Path。 getFileSystem(Path.java:296) at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:228) at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:200) at org.apache .

0 投票
0 回答
452 浏览

node.js - Zeppelin Web 项目构建错误

无法将从 GitHub 下载的 zeppelin 代码构建到本地 Windows 机器上。它似乎一直在下载 32 位 npm。有没有办法让它下载在win 7 64位机器上运行的64位npm


0 投票
1 回答
2228 浏览

apache-spark - Apache Zeppelin 未显示 Spark 输出

我正在使用以下数据示例使用 Spark 测试 Zeppelin:

我注意到 Zeppelin 并不总是能够显示输出,即使代码在 Spark-Shell 中运行良好。下面是一个例子,知道如何解决这个问题吗?

0 投票
0 回答
161 浏览

pyspark - 在 zeppelin 中自动评估 pyspark 中的变量

我刚刚安装了 Zeepelin 0.5.5(使用 AWS EMR 提供的“Zeppelin Sandbox”)。在 python 块(%pyspark)中,如何自动显示(评估)块的最后一个变量?

我的意思是,在 scala 块中,如果我做一个

我得到:

res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6a78beae

但在 python 块中,我必须执行 print()。为什么会有这种差异?如何在 python 中进行自动评估?