问题标签 [apache-zeppelin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - 如何在数据框中指定缺失值
我正在尝试使用 Apache Zeppelin 笔记本将 CSV 文件加载到带有 spark-csv [1] 的 Spark 数据帧中,当加载没有值的数字字段时,解析器对该行失败并且该行被跳过。
我本来希望该行被加载并且数据框中的值加载该行并将值设置为NULL,以便聚合忽略该值。
这是数据文件的内容:/home/spark_user/data.csv
这是输出:
在 zeppelin 的日志中,我可以在解析 santa 的行时看到以下错误:
所以到目前为止你可能会告诉我这么好......你是对的;)
现在我想添加一个额外的列,比如年龄,我总是在那个字段中有数据。
现在礼貌地询问一些关于年龄的统计数据:
结果
都错了!由于圣诞老人的身高未知,整条线都丢失了,年龄的计算仅基于 Sam 和 Cath,而圣诞老人的年龄完全有效。
我的问题是我需要插入圣诞老人的高度以便加载 CSV 的值是多少。我试图将架构设置为全部 StringType 但随后
下一个问题更多关于
我在 API 中发现可以使用 spark 处理 N/A 值。所以我想也许我可以加载所有列设置为 StringType 的数据,然后进行一些清理,然后只正确设置架构,如下所示:
但是 df.na.replace() 抛出异常并停止:
非常感谢任何帮助和提示!
scala - Zeppelin 集群模式不适用于 spark 1.2 Ambari,Hortonworks 集群
我正在尝试部署一个集群并在其上运行一些示例 Spark/scala 代码,虽然当我在具有默认参数的独立模式下使用 zeppelin 时一切正常,但我无法让它在集群模式下工作。我尝试在 spark 中使用spark-class和start-master标准 shell 文件手动创建 spark 集群,然后将spark://.. URL 传递给 Zeppelin,但是在运行代码后,我不断收到不同的奇异错误(如 java sys. process._ library 丢失),一段时间后,spark 工作人员的状态在 Spark MasterUI 中变为 DEAD
我还尝试在 zeppelin spark.home 变量中放置yarn-client而不是 spark-URL,但它没有产生类似的错误。
您能否帮我在 Ambari 集群上部署 zeppelin 和/或提示我做错了什么?
apache-spark - 使用 Spark Streaming 的热图
我刚刚开始使用 Spark Streaming 并做了一些 POC。这很容易实现。我正在考虑使用一些智能图形和仪表板工具(例如 Graphite 或 Grafna)来呈现数据,但它们没有热图。我还查看了Zeppelin,但找不到任何热图功能。您能否推荐任何使用热图和 Spark 流的数据可视化工具。
apache-spark - HDP 2.3 上的 Zeppelin Pyspark 给出错误
我正在尝试将 zeppelin 配置为与 HDP 2.3 (Spark 1.3) 一起使用。我已经通过 Ambari 成功安装了 zeppelin,并且 zeppelin 服务正在运行。
但是当我尝试运行任何%pyspark
命令时,我收到以下错误。
我读了几篇博客,但似乎在 Python 和 Spark 之间共享的 Java 6 和 Java 7 上编译的 jar 存在一些问题。
scala - 如何在 zeppelin 中抑制变量值的打印
给定以下代码段:
Zeppelin 将 的全部值打印local
到笔记本屏幕上。如何改变这种行为?
java - 在 Pyspark 中访问 JavaRDD
在 Apache Zeppelin 中,我通过调用从 Java JAR 加载的类的静态函数来创建 JavaRDD 对象。是否可以使用 Pyspark 访问此 JavaRDD?
我已经能够通过以下低效的方法解决这个问题。我很高兴看到更清洁的解决方案。
Java部分:
- 将 RDD 的内容映射到它们的序列化版本(例如 JSON 字符串)。
- 将映射的 RDD 写入 Spark SQL 表。
Python部分:
从 SqlContext 访问表。
获取表的 RDD 并将其内容映射回其反序列化版本。
apache-spark - Apache Zeppelin 使用哪种协议连接到 Apache Spark?(iPython/ZeroMQ)?
我想知道 Apache Zeppelin 使用哪个协议连接到 Apache Spark?
它也是 ZeroMQ 上的 iPython 协议吗?
非常感谢!
此致
罗密欧
apache-spark - Spark Master 已在使用 Zeppelin 更改端口
当我在 AWS 上启动 zeppelin 时,它从端口 8080 开始,但是有 Spark Master,所以它说端口已经在使用中......我尝试在配置文件中更改 zeppelin 中的端口,在“zeppelin-site.xml.template”中
我也在“zeppelin-env.sh.template”中为同一个端口添加了 env 行。
当我启动 zeppelin 时,我没问题,但是如果我看到开放的端口,它不会在任何地方出现 8050,所以看起来它仍在尝试部署在 Spark Master 所在的端口 8080 上......
有人让齐柏林飞艇不忽略更改的端口?
谢谢
apache-spark - Apache Zeppelin 不加载 libmesos.so
我正在使用当前版本v0.5评估 Apache Zeppelin 。我有一个将 spark 注册为框架的 mesos 集群,然后我需要配置 Zeppelin 以连接到 mesos 上的远程 spark 集群。
我在conf/zeppelin-env.sh中 的配置是:
但是当我执行引导命令并运行演示笔记本时,日志显示一些错误并且查询不起作用:
我找不到有关此错误消息的任何文档或源代码。而且我不明白原因,因为我在 /usr/lib 上有 libmesos.so,并且当我单独执行 spark-submmit 时,所有主机都可以正常工作。
apache-spark - Spark Scala API:将 PairDStream 映射到另一个 PairDStream
我正在使用 Spark 的 Java API。现在我需要将我的 Java 应用程序“翻译”成 Scala 代码,因为我想试用 Apache Zeppelin。我有一个 PairDStream (1.1.1.123,(1,1,1,1))并且需要将其对映射到形式为(1.1.1,(1,1,1,1))的 PairDStream (剪切“123 " 在第一对的键中)。有人可以提供一个线索如何做到这一点或如何将一对映射到另一个在scala中?我使用map函数创建了第一对。谢谢!