问题标签 [snappydata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - SnappyData:java.lang.OutOfMemoryError:超出 GC 开销限制
我在 S3 上有 1.2GB 的 orc 数据,我正在尝试使用相同的方法执行以下操作:
1) 缓存 snappy 集群上的数据 [snappydata 0.9]
2)对缓存的数据集执行groupby查询
3) 与 Spark 2.0.0 的性能对比
我使用的是 64 GB/8 核的机器,Snappy 集群的配置如下:
现在,我编写了一个小 Python 脚本,用于缓存 S3 中的 orc 数据并运行一个简单的 group by 查询,如下所示:
使用以下命令执行上述脚本:
我收到以下错误:
除了上述错误,如何检查数据是否已缓存在 snappy 集群中?
snappydata - SnappyData 提交一个带有参数的 jar 到集群
SnappyData 文档给出了如何将 jar 提交到集群的示例:
https://snappydatainc.github.io/snappydata/howto/run_spark_job_inside_cluster/
但是,如果我需要多次提交具有相同类 CreatePartitionedRowTable 的 jar,但使用不同的参数,说不同的后缀以附加到创建的表的名称,我该怎么做?
更新:
更准确地说,说我想在提交jar时提交具有不同参数的jar,就像这样
额外的
会传入到job中,代码可以取这个参数后缀,并将后缀附加到要创建的表名上,这样就不用每次提交jar都修改代码了带有不同的后缀。
更新 2:
我刚刚浏览了示例并找到了一个示例用法: https ://github.com/SnappyDataInc/snappydata/blob/master/examples/src/main/scala/org/apache/spark/examples/snappydata/CreateColumnTable.scala
所以基本上像这样运行:
并使用 config 获取自定义参数。
sql - SnappyData SQL if else
我有两张表需要加入
得到一张新桌子
应该像这样填充值的位置
Case1:如果table_A和table_B中都存在ID,则值应为1,
情况2:如果ID只存在于table_A中,不存在于table_B中,则值应为0。
我知道我可以像上面那样使用左外连接,并将 {TODO} 替换为 COALESCE(B.ID, 0) 来处理第二种情况,但是如何在 SnappyData SQL 的一个 SQL 语句中也包含第一种情况?
apache-zeppelin - SnappyData + Zeppelin + Kafka 流式传输 - 创建流式传输表时出错
我正在尝试使用 Zeppelin 创建 SnappyData 流表。我对参数“rowConverter”的流表定义有疑问
Zeppelin notebook 分为几段:
第 1 段:
第 2 段:
第一段返回错误:
第二段:
我一直在尝试使用 git 中的默认代码:
但我有类似的错误:
你能帮我解决这个问题吗?十分感谢。
apache-spark - SnappyData - snappy-job - 无法运行 jar 文件
我正在尝试从 snappydata cli 运行 jar 文件。
我只想在开始时创建一个 sparkSession 和 SnappyData 会话。
来自 sbt 文件:
当我在 IDE 中调试代码时,它工作正常,但是当我创建一个 jar 文件并尝试直接在 snappy 上运行它时,我收到消息:
我有 Spark Standalone 2.1.1、SnappyData 1.0.0。我向 Spark 实例添加了依赖项。
你可以帮帮我吗 ?。感谢先进。
apache-spark - SnappyData:在 build.sbt 和 import 语句中放入什么,以便我可以使用 SnappySession
我正在努力开发一种“Hello World”类型的 SnappyData 应用程序,我希望能够在 IntelliJ 中构建和运行它。到目前为止,我的集群是本地计算机上的一个定位器、一个潜在客户和一个服务器。我只想连接到它,序列化一小段数据或者可能是一个 DataFrame,然后看看它是否正常工作。
文档说我应该能够做这样的事情:
但是,我得到“无法解析符号 SnappySession”。
这是我的 build.sbt 中的内容:
(添加这些后我刷新了项目。)
我收集到,当我导入一些与 Spark 相关的东西时,例如:
我实际上是从我的 build.sbt 中的依赖项中导入扩展的 SnappyData 版本,而不是规范的 org.apache.spark 版本。所以这应该意味着我还可以:
但是,我得到“无法解析符号 SnappySession”。而且我在输入时在代码完成下拉列表中看不到任何与 Snappy 相关的内容。它像香草火花一样寻找整个世界。
我在这里想念什么?我想我错过了一些明显的东西。我在 SnappyData 文档中找不到导入标头或构建语句的示例,我认为是因为这些细节太明显而无法提及。除了我。这里有没有人愿意帮助我解决这个问题?
spark-streaming - Snappydata - 放入作业服务器的 sql 不聚合值
我正在尝试创建一个 jar 以在带有流式传输的 snappy-job shell 上运行。我有聚合功能,它可以在 Windows 中完美运行。但是我需要一个表,每个键都有一个值。基于来自 github 的示例创建一个 jar 文件,现在我遇到了 put into sql 命令的问题。
我的聚合代码:
我必须更新或插入表 updateTable,但在更新命令期间,当前值必须添加到来自流的值。现在 :
执行代码时看到的内容:
然后我给kafka发了消息:
并再次从 updateTable 中选择:
Bidcount 值被覆盖而不是添加。但是当我从 snappy-sql shell 执行 put into 命令时,它可以完美运行:
你能帮我处理这个案子吗?也许有人有其他使用 snappydata 插入或更新值的解决方案?
提前谢谢你。
apache-spark - SnappyData 智能连接器 - 如何运行作业
我正在阅读文档,我想请您帮助我了解 SnappyData 智能连接器点。
文档中有几个不同的示例我应该如何使用 spark-submit 例如:
示例 1
示例 2
示例 3
假设我在 3 台主机上有 Spark 集群:1 台主机和 3 台工人我想使用 SnappyData 集群作为我当前 Spark 环境的数据源。我应该使用示例 1 或 2 或 3 中的命令吗?
您能否向我解释一下 spark-submit 中的 --deploy-mode 参数是什么 - http://snappydatainc.github.io/snappydata/affinity_modes/connector_mode/ spark-submit 的集群模式和客户端模式有何不同?
预先感谢您的任何帮助。问候,
apache-spark - 像本地模式一样使用 SnappyData 嵌入模式
我正在试验一个家庭集群,但我想在 IntelliJ 中调试它。
SnappyData 文档说,在本地模式下,我可以在我的驾驶程序中创建一个 SnappySession,根据我的 Spark 经验,我可以在连接到 Spark 集群时在本地运行它。这对调试非常有用。
但是当我开始处理更多数据时,我仍然希望能够进行调试,同时还要测试我的集群的性能。为此,我希望能够在以Embedded Mode连接到集群时做同样的事情。鉴于 Lead 托管 Spark 驱动程序,或者我正在寻找的可能是在服务器上,当我运行嵌入式模式集群时,是否有可以使用相同代码连接的系统?如何找到该系统的地址和端口?(我没有从 Snappy-Start-All.sh 获得太多命令行反馈。)
apache-spark - SnappyData:将独立 Spark 作业连接到嵌入式集群
我想要实现的类似于智能连接器模式,但文档对我帮助不大,因为智能连接器示例基于 Spark-Shell,而我正在尝试运行独立的 Scala 应用程序。因此,我不能对 Spark-Shell 使用 --conf 参数。
为了找到我的火花大师,我查看了 SnappyData 网络界面。我发现了以下内容:
(目前,IP 地址都在一台主机上。)
我有一个简单的示例 Spark 作业,只是为了测试我的集群是否正常工作:
我得到了这个错误:
那么在这种情况下我应该如何(应该?)使用智能连接器模式?