问题标签 [snappydata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
738 浏览

apache-spark - SnappyData:java.lang.OutOfMemoryError:超出 GC 开销限制

我在 S3 上有 1.2GB 的 orc 数据,我正在尝试使用相同的方法执行以下操作:

1) 缓存 snappy 集群上的数据 [snappydata 0.9]

2)对缓存的数据集执行groupby查询

3) 与 Spark 2.0.0 的性能对比

我使用的是 64 GB/8 核的机器,Snappy 集群的配置如下:

现在,我编写了一个小 Python 脚本,用于缓存 S3 中的 orc 数据并运行一个简单的 group by 查询,如下所示:

使用以下命令执行上述脚本:

我收到以下错误:

除了上述错误,如何检查数据是否已缓存在 snappy 集群中?

0 投票
1 回答
74 浏览

snappydata - SnappyData 提交一个带有参数的 jar 到集群

SnappyData 文档给出了如何将 jar 提交到集群的示例:

https://snappydatainc.github.io/snappydata/howto/run_spark_job_inside_cluster/

但是,如果我需要多次提交具有相同类 CreatePartitionedRowTable 的 jar,但使用不同的参数,说不同的后缀以附加到创建的表的名称,我该怎么做?

更新:

更准确地说,说我想在提交jar时提交具有不同参数的jar,就像这样

额外的

会传入到job中,代码可以取这个参数后缀,并将后缀附加到要创建的表名上,这样就不用每次提交jar都修改代码了带有不同的后缀。

更新 2:

我刚刚浏览了示例并找到了一个示例用法: https ://github.com/SnappyDataInc/snappydata/blob/master/examples/src/main/scala/org/apache/spark/examples/snappydata/CreateColumnTable.scala

所以基本上像这样运行:

并使用 config 获取自定义参数。

0 投票
1 回答
36 浏览

sql - SnappyData SQL if else

我有两张表需要加入

得到一张新桌子

应该像这样填充值的位置

Case1:如果table_A和table_B中都存在ID,则值应为1,

情况2:如果ID只存在于table_A中,不存在于table_B中,则值应为0。

我知道我可以像上面那样使用左外连接,并将 {TODO} 替换为 COALESCE(B.ID, 0) 来处理第二种情况,但是如何在 SnappyData SQL 的一个 SQL 语句中也包含第一种情况?

0 投票
2 回答
208 浏览

apache-zeppelin - SnappyData + Zeppelin + Kafka 流式传输 - 创建流式传输表时出错

我正在尝试使用 Zeppelin 创建 SnappyData 流表。我对参数“rowConverter”的流表定义有疑问

Zeppelin notebook 分为几段:

第 1 段:

第 2 段:

第一段返回错误:

第二段:

我一直在尝试使用 git 中的默认代码:

但我有类似的错误:

你能帮我解决这个问题吗?十分感谢。

0 投票
2 回答
123 浏览

apache-spark - SnappyData - snappy-job - 无法运行 jar 文件

我正在尝试从 snappydata cli 运行 jar 文件。

我只想在开始时创建一个 sparkSession 和 SnappyData 会话。

来自 sbt 文件:

当我在 IDE 中调试代码时,它工作正常,但是当我创建一个 jar 文件并尝试直接在 snappy 上运行它时,我收到消息:

我有 Spark Standalone 2.1.1、SnappyData 1.0.0。我向 Spark 实例添加了依赖项。

你可以帮帮我吗 ?。感谢先进。

0 投票
2 回答
237 浏览

apache-spark - SnappyData:在 build.sbt 和 import 语句中放入什么,以便我可以使用 SnappySession

我正在努力开发一种“Hello World”类型的 SnappyData 应用程序,我希望能够在 IntelliJ 中构建和运行它。到目前为止,我的集群是本地计算机上的一个定位器、一个潜在客户和一个服务器。我只想连接到它,序列化一小段数据或者可能是一个 DataFrame,然后看看它是否正常工作。

文档说我应该能够做这样的事情:

但是,我得到“无法解析符号 SnappySession”。

这是我的 build.sbt 中的内容:

(添加这些后我刷新了项目。)

我收集到,当我导入一些与 Spark 相关的东西时,例如:

我实际上是从我的 build.sbt 中的依赖项中导入扩展的 SnappyData 版本,而不是规范的 org.apache.spark 版本。所以这应该意味着我还可以:

但是,我得到“无法解析符号 SnappySession”。而且我在输入时在代码完成下拉列表中看不到任何与 Snappy 相关的内容。它像香草火花一样寻找整个世界。

我在这里想念什么?我想我错过了一些明显的东西。我在 SnappyData 文档中找不到导入标头或构建语句的示例,我认为是因为这些细节太明显而无法提及。除了我。这里有没有人愿意帮助我解决这个问题?

0 投票
1 回答
64 浏览

spark-streaming - Snappydata - 放入作业服务器的 sql 不聚合值

我正在尝试创建一个 jar 以在带有流式传输的 snappy-job shell 上运行。我有聚合功能,它可以在 Windows 中完美运行。但是我需要一个表,每个键都有一个值。基于来自 github 的示例创建一个 jar 文件,现在我遇到了 put into sql 命令的问题。

我的聚合代码:

我必须更新或插入表 updateTable,但在更新命令期间,当前值必须添加到来自流的值。现在 :

执行代码时看到的内容:

然后我给kafka发了消息:

并再次从 updateTable 中选择:

Bidcount 值被覆盖而不是添加。但是当我从 snappy-sql shell 执行 put into 命令时,它可以完美运行:

你能帮我处理这个案子吗?也许有人有其他使用 snappydata 插入或更新值的解决方案?

提前谢谢你。

0 投票
1 回答
163 浏览

apache-spark - SnappyData 智能连接器 - 如何运行作业

我正在阅读文档,我想请您帮助我了解 SnappyData 智能连接器点。

文档中有几个不同的示例我应该如何使用 spark-submit 例如:

示例 1

示例 2

示例 3

假设我在 3 台主机上有 Spark 集群:1 台主机和 3 台工人我想使用 SnappyData 集群作为我当前 Spark 环境的数据源。我应该使用示例 1 或 2 或 3 中的命令吗?

您能否向我解释一下 spark-submit 中的 --deploy-mode 参数是什么 - http://snappydatainc.github.io/snappydata/affinity_modes/connector_mode/ spark-submit 的集群模式和客户端模式有何不同?

预先感谢您的任何帮助。问候,

0 投票
0 回答
122 浏览

apache-spark - 像本地模式一样使用 SnappyData 嵌入模式

我正在试验一个家庭集群,但我想在 IntelliJ 中调试它。

SnappyData 文档说,在本地模式下,我可以在我的驾驶程序中创建一个 SnappySession,根据我的 Spark 经验,我可以在连接到 Spark 集群时在本地运行它。这对调试非常有用。

但是当我开始处理更多数据时,我仍然希望能够进行调试,同时还要测试我的集群的性能。为此,我希望能够在以Embedded Mode连接到集群时做同样的事情。鉴于 Lead 托管 Spark 驱动程序,或者我正在寻找的可能是在服务器上,当我运行嵌入式模式集群时,是否有可以使用相同代码连接的系统?如何找到该系统的地址和端口?(我没有从 Snappy-Start-All.sh 获得太多命令行反馈。)

0 投票
1 回答
262 浏览

apache-spark - SnappyData:将独立 Spark 作业连接到嵌入式集群

我想要实现的类似于智能连接器模式,但文档对我帮助不大,因为智能连接器示例基于 Spark-Shell,而我正在尝试运行独立的 Scala 应用程序。因此,我不能对 Spark-Shell 使用 --conf 参数。

为了找到我的火花大师,我查看了 SnappyData 网络界面。我发现了以下内容:

(目前,IP 地址都在一台主机上。)

我有一个简单的示例 Spark 作业,只是为了测试我的集群是否正常工作:

我得到了这个错误:

那么在这种情况下我应该如何(应该?)使用智能连接器模式?