问题标签 [apache-zeppelin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 小数据集的执行速度非常慢——从哪里开始调试?
我在 MacBook(i5、2.6GHz、8GB 内存)上使用 Zeppelin NB 和 Spark 在独立模式下进行了一些实验。spark.executor/driver.memory 都得到 2g。我也在spark.serializer org.apache.spark.serializer.KryoSerializer
spark-defaults.conf 中设置了,但这似乎被 zeppelin 忽略了
ALS模型
我已经训练了一个具有约 400k(隐式)评级的 ALS 模型,并希望获得建议val allRecommendations = model.recommendProductsForUsers(1)
样本集
接下来我拿一个样本来玩
这包含 3600 条建议。
移除用户拥有的产品推荐
接下来我想删除给定用户已经拥有的产品的所有评级,我在 RDD 中保存的列表 (user_id, Set[product_ids]):RDD[(Long, scala.collection.mutable.HashSet[Int])]
问题 1在缓存样本集上
调用此 ( productRecommendations.count
) 会生成一个包含flatMap at MatrixFactorizationModel.scala:278
10,000个任务、263.6 MB 输入数据和 196.0 MB 随机写入的阶段。不应该使用微小的和缓存的RDD吗?这里发生了什么(wr)on(g)?计数的执行需要将近 5 分钟!
问题 2usersProductsFlat.count
根据应用程序 UI 中的“存储”视图完全缓存的
调用每次大约需要 60 秒。它的大小为 23Mb – 不应该快很多吗?
映射为可读形式
接下来,我以某种可读的形式将 ID 替换为广播查找 Map 中的名称,以放入 DF/表中:
选择……耐心
疯狂的部分从这里开始。做一个 SELECT 需要几个小时(我永远不能等待一个完成):
我不知道在哪里可以找到这里的瓶颈,这里显然发生了一些巨大的混乱!我可以从哪里开始寻找?
scala - Spark DataFrame过滤:保留属于列表的元素
我在 Zeppelin 笔记本上使用带有 Scala 的 Spark 1.5.1。
- 我有一个 DataFrame,其中有一列名为 userID 的 Long 类型。
- 我总共有大约 400 万行和 200,000 个唯一用户 ID。
- 我还有一个要排除的 50,000 个用户 ID 的列表。
- 我可以轻松构建要保留的用户 ID 列表。
删除属于要排除的用户的所有行的最佳方法是什么?
提出相同问题的另一种方法是:保留属于用户的行的最佳方法是什么?
我看到了这篇文章并应用了它的解决方案(参见下面的代码),但执行速度很慢,因为我知道我在本地机器上运行 SPARK 1.5.1,我有 16GB 的良好 RAM 内存并且初始 DataFrame 适合记忆。
这是我正在应用的代码:
在上面的代码中:
- initialDataFrame 有 3885068 行,每行有 5 列,其中一列称为 userID,它包含 Long 值。
- listOfUsersToKeep 是一个 Array[Long],它包含 150,000 个 Long 用户 ID。
我想知道是否有比我正在使用的更有效的解决方案。
谢谢
apache-zeppelin - Apache Zeppelin - 设置默认解释器
在 Zeppelin 中,每一行我都必须在每一行提供口译员。有没有办法为整个会话设置解释器。
用了 0 秒。
控制台:1:错误:'。' 预期但找到标识符。将熊猫导入为 pd
用了 0 秒。
如何为整个会话设置口译员?
apache-spark-sql - 在 Zeppelin 中使用 %pyspark 解释器注册表时,我无法访问 %sql 中的表
我正在使用 Zeppelin 0.5.5。我在此处为 python 找到了此代码/示例,因为我无法自己使用 %pyspark http://www.makedatauseful.com/python-spark-sql-zeppelin-tutorial/。我感觉他的 %pyspark 示例有效,因为如果您使用原始的 %spark zeppelin 教程,则“银行”表已经创建。
此代码在笔记本中。
此代码在同一个笔记本中,但在不同的工作台上。
sql - Apache - Zeppelin 跨段落使用变量
我正在尝试在 Apache Zeppelin 上完成以下用例:sql
例如,当我编写查询时
我得到一个显示这些值(1,2,3,4)
作为选项的组合框。我想要做的是用该列可用的所有不同值填充这个列表(或者事实上,我可能想从另一个段落中以变量的形式获取任何其他值集)。所以目前我被困在如何sql
在另一段的语句中使用一段中定义的一些变量?
深入研究代码,我看到在 Zeppelin-interpreter 内部,一个名为Input.java
checks for a pattern的文件${someColumn=someValues}
填充了组合框选项,然后创建了一个简单的查询,因此我放弃了通过运行查询来填充它的想法在同一段中。
apache-zeppelin - Apache Zeppelin 教程失败
最近我使用 git 从 git 安装了 Zeppelin, mvn clean package -Pspark-1.5 -Dspark.version=1.5.1 -Phadoop-2.4 -Pyarn -Ppyspark -DskipTests
但由于此错误,我无法运行教程:
知道为什么会这样吗?我没有修改任何 conf 文件,因为我有兴趣使用嵌入式 Spark 二进制文件运行它。
我已经在这里检查了大部分线程,但没有一个有效。
谢谢
编辑:我使用的是 Mac
amazon-web-services - 带有 zeppelin 的 pyspark 是 emr 给出 NoClassDefFoundError
我在 emr 上运行 zeppelin 以使用 pyspark 处理一些日志文件。
我收到此“java.lang.NoClassDefFoundError:com/amazonaws/services/s3/AmazonS3”错误。
不知道如何解决它。我查看了各种资源。帮助表示赞赏。
--- 错误日志---
Py4JJavaError:调用 o188.partitions 时出错。: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3 在 com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:99) 在 org.apache.hadoop.fs.FileSystem。 createFileSystem(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660) 在 org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374) 在 org.apache.hadoop.fs.Path。 getFileSystem(Path.java:296) at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:228) at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:200) at org.apache .
node.js - Zeppelin Web 项目构建错误
无法将从 GitHub 下载的 zeppelin 代码构建到本地 Windows 机器上。它似乎一直在下载 32 位 npm。有没有办法让它下载在win 7 64位机器上运行的64位npm
apache-spark - Apache Zeppelin 未显示 Spark 输出
我正在使用以下数据示例使用 Spark 测试 Zeppelin:
我注意到 Zeppelin 并不总是能够显示输出,即使代码在 Spark-Shell 中运行良好。下面是一个例子,知道如何解决这个问题吗?
pyspark - 在 zeppelin 中自动评估 pyspark 中的变量
我刚刚安装了 Zeepelin 0.5.5(使用 AWS EMR 提供的“Zeppelin Sandbox”)。在 python 块(%pyspark)中,如何自动显示(评估)块的最后一个变量?
我的意思是,在 scala 块中,如果我做一个
我得到:
res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6a78beae
但在 python 块中,我必须执行 print()。为什么会有这种差异?如何在 python 中进行自动评估?