“snappydata”的相关标签问题

0 投票

1 回答

738 浏览

apache-spark - SnappyData：java.lang.OutOfMemoryError：超出 GC 开销限制

我在 S3 上有 1.2GB 的 orc 数据，我正在尝试使用相同的方法执行以下操作：

1) 缓存 snappy 集群上的数据 [snappydata 0.9]

2）对缓存的数据集执行groupby查询

3) 与 Spark 2.0.0 的性能对比

我使用的是 64 GB/8 核的机器，Snappy 集群的配置如下：

现在，我编写了一个小 Python 脚本，用于缓存 S3 中的 orc 数据并运行一个简单的 group by 查询，如下所示：

使用以下命令执行上述脚本：

我收到以下错误：

除了上述错误，如何检查数据是否已缓存在 snappy 集群中？

2017-10-04T09:57:09.430

0 投票

1 回答

74 浏览

snappydata - SnappyData 提交一个带有参数的 jar 到集群

SnappyData 文档给出了如何将 jar 提交到集群的示例：

https://snappydatainc.github.io/snappydata/howto/run_spark_job_inside_cluster/

但是，如果我需要多次提交具有相同类 CreatePartitionedRowTable 的 jar，但使用不同的参数，说不同的后缀以附加到创建的表的名称，我该怎么做？

更新：

更准确地说，说我想在提交jar时提交具有不同参数的jar，就像这样

额外的

会传入到job中，代码可以取这个参数后缀，并将后缀附加到要创建的表名上，这样就不用每次提交jar都修改代码了带有不同的后缀。

更新 2：

我刚刚浏览了示例并找到了一个示例用法： https ://github.com/SnappyDataInc/snappydata/blob/master/examples/src/main/scala/org/apache/spark/examples/snappydata/CreateColumnTable.scala

所以基本上像这样运行：

并使用 config 获取自定义参数。

snappydata

2017-10-10T22:04:05.457

0 投票

1 回答

36 浏览

sql - SnappyData SQL if else

我有两张表需要加入

得到一张新桌子

应该像这样填充值的位置

Case1：如果table_A和table_B中都存在ID，则值应为1，

情况2：如果ID只存在于table_A中，不存在于table_B中，则值应为0。

我知道我可以像上面那样使用左外连接，并将 {TODO} 替换为 COALESCE(B.ID, 0) 来处理第二种情况，但是如何在 SnappyData SQL 的一个 SQL 语句中也包含第一种情况？

sql snappydata

2017-10-11T23:05:40.343

0 投票

2 回答

208 浏览

apache-zeppelin - SnappyData + Zeppelin + Kafka 流式传输 - 创建流式传输表时出错

我正在尝试使用 Zeppelin 创建 SnappyData 流表。我对参数“rowConverter”的流表定义有疑问

Zeppelin notebook 分为几段：

第 1 段：

第 2 段：

第一段返回错误：

第二段：

我一直在尝试使用 git 中的默认代码：

但我有类似的错误：

你能帮我解决这个问题吗？十分感谢。

apache-zeppelin snappy snappydata

2017-10-17T01:57:11.550

0 投票

2 回答

123 浏览

apache-spark - SnappyData - snappy-job - 无法运行 jar 文件

我正在尝试从 snappydata cli 运行 jar 文件。

我只想在开始时创建一个 sparkSession 和 SnappyData 会话。

来自 sbt 文件：

当我在 IDE 中调试代码时，它工作正常，但是当我创建一个 jar 文件并尝试直接在 snappy 上运行它时，我收到消息：

我有 Spark Standalone 2.1.1、SnappyData 1.0.0。我向 Spark 实例添加了依赖项。

你可以帮帮我吗？。感谢先进。

apache-spark snappydata

2017-10-20T08:45:36.853

0 投票

2 回答

237 浏览

apache-spark - SnappyData：在 build.sbt 和 import 语句中放入什么，以便我可以使用 SnappySession

我正在努力开发一种“Hello World”类型的 SnappyData 应用程序，我希望能够在 IntelliJ 中构建和运行它。到目前为止，我的集群是本地计算机上的一个定位器、一个潜在客户和一个服务器。我只想连接到它，序列化一小段数据或者可能是一个 DataFrame，然后看看它是否正常工作。

文档说我应该能够做这样的事情：

但是，我得到“无法解析符号 SnappySession”。

这是我的 build.sbt 中的内容：

（添加这些后我刷新了项目。）

我收集到，当我导入一些与 Spark 相关的东西时，例如：

我实际上是从我的 build.sbt 中的依赖项中导入扩展的 SnappyData 版本，而不是规范的 org.apache.spark 版本。所以这应该意味着我还可以：

但是，我得到“无法解析符号 SnappySession”。而且我在输入时在代码完成下拉列表中看不到任何与 Snappy 相关的内容。它像香草火花一样寻找整个世界。

我在这里想念什么？我想我错过了一些明显的东西。我在 SnappyData 文档中找不到导入标头或构建语句的示例，我认为是因为这些细节太明显而无法提及。除了我。这里有没有人愿意帮助我解决这个问题？

apache-spark intellij-idea snappydata

2017-10-23T06:20:56.920

0 投票

1 回答

64 浏览

spark-streaming - Snappydata - 放入作业服务器的 sql 不聚合值

我正在尝试创建一个 jar 以在带有流式传输的 snappy-job shell 上运行。我有聚合功能，它可以在 Windows 中完美运行。但是我需要一个表，每个键都有一个值。基于来自 github 的示例创建一个 jar 文件，现在我遇到了 put into sql 命令的问题。

我的聚合代码：

我必须更新或插入表 updateTable，但在更新命令期间，当前值必须添加到来自流的值。现在：

执行代码时看到的内容：

然后我给kafka发了消息：

并再次从 updateTable 中选择：

Bidcount 值被覆盖而不是添加。但是当我从 snappy-sql shell 执行 put into 命令时，它可以完美运行：

你能帮我处理这个案子吗？也许有人有其他使用 snappydata 插入或更新值的解决方案？

提前谢谢你。

spark-streaming snappydata

2017-10-24T08:30:11.850

0 投票

1 回答

163 浏览

apache-spark - SnappyData 智能连接器 - 如何运行作业

我正在阅读文档，我想请您帮助我了解 SnappyData 智能连接器点。

文档中有几个不同的示例我应该如何使用 spark-submit 例如：

示例 1

示例 2

示例 3

假设我在 3 台主机上有 Spark 集群：1 台主机和 3 台工人我想使用 SnappyData 集群作为我当前 Spark 环境的数据源。我应该使用示例 1 或 2 或 3 中的命令吗？

您能否向我解释一下 spark-submit 中的 --deploy-mode 参数是什么 - http://snappydatainc.github.io/snappydata/affinity_modes/connector_mode/ spark-submit 的集群模式和客户端模式有何不同？

预先感谢您的任何帮助。问候，

apache-spark snappydata

2017-10-24T19:36:58.627

0 投票

0 回答

122 浏览

apache-spark - 像本地模式一样使用 SnappyData 嵌入模式

我正在试验一个家庭集群，但我想在 IntelliJ 中调试它。

SnappyData 文档说，在本地模式下，我可以在我的驾驶程序中创建一个 SnappySession，根据我的 Spark 经验，我可以在连接到 Spark 集群时在本地运行它。这对调试非常有用。

但是当我开始处理更多数据时，我仍然希望能够进行调试，同时还要测试我的集群的性能。为此，我希望能够在以Embedded Mode连接到集群时做同样的事情。鉴于 Lead 托管 Spark 驱动程序，或者我正在寻找的可能是在服务器上，当我运行嵌入式模式集群时，是否有可以使用相同代码连接的系统？如何找到该系统的地址和端口？（我没有从 Snappy-Start-All.sh 获得太多命令行反馈。）

apache-spark intellij-idea snappydata

2017-10-25T16:04:37.407

0 投票

1 回答

262 浏览

apache-spark - SnappyData：将独立 Spark 作业连接到嵌入式集群

我想要实现的类似于智能连接器模式，但文档对我帮助不大，因为智能连接器示例基于 Spark-Shell，而我正在尝试运行独立的 Scala 应用程序。因此，我不能对 Spark-Shell 使用 --conf 参数。

为了找到我的火花大师，我查看了 SnappyData 网络界面。我发现了以下内容：

（目前，IP 地址都在一台主机上。）

我有一个简单的示例 Spark 作业，只是为了测试我的集群是否正常工作：

我得到了这个错误：

那么在这种情况下我应该如何（应该？）使用智能连接器模式？

apache-spark intellij-idea snappydata

2017-10-25T21:53:37.390

问题标签 [snappydata]

Reference