问题标签 [snappydata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
677 浏览

python-2.7 - from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy

即使在我尝试从以下代码导入 pyspark.sql.snappy 时重新安装 pyspark 和 snappydata 之后:

我得到错误:

请帮忙!

0 投票
1 回答
184 浏览

python-2.7 - 如何在 SnappyData 中存储数组或 Blob?

我正在尝试创建一个包含两列的表,如下所示:

它创建成功,但是当我尝试将数据插入其中时,它不接受任何格式的数组。我尝试了以下查询:

请帮忙!

0 投票
1 回答
101 浏览

apache-spark-sql - 将复杂数据类型(数组)从 csv 导入 snappydata

从我之前的问题中,我知道了插入数组的方式。

现在我想在表中插入大量数据。从 snappydata 的这个引用中,我能够将大量数据导入表中。但是当我尝试导入像 Array 这样的复杂数据类型时,它不支持。

谁能告诉我如何将数组从 CSV 文件插入到表中?

0 投票
1 回答
256 浏览

snappydata - 在 SnappyData 中为大型数据集创建表

我有 3300 万条记录要插入到 Snappydata 数据库中。我已经尝试创建一个列表而不设置其选项。问题是 spark 正在将整个数据库加载到 RAM 中。我想设置列选项,以便获得更快的统计计数。

根据参考资料,这是我们创建表的方式:

  1. 谁能建议我可以为诸如等选项设置的参数,这些参数BUCKETS可以COLUMN_MAX_DELTA_ROWS提高 OLAP 查询的性能。

  2. 我可以在创建表格后为表格设置这些选项吗?

例如:就像在 SQL 中一样,我们可以使用 ALTER 为如下表设置额外的选项:

ALTER TABLE t ENGINE = InnoDB;

编辑:我们正在执行每个 200 万的批量插入。虽然每批都以 DF 的形式从 json 插入到表中,但它像水一样消耗 RAM。我们的问题是 snappy 使用过多的 RAM。

0 投票
2 回答
82 浏览

pyspark - Snappydata 的数组大小不能超过 1000

任何人都可以帮助我并向我提供有关行/列表的行可以具有的数组长度和尺寸限制的信息。我不能向我的数组添加超过 1000 个元素。有没有办法增加它的大小?

0 投票
0 回答
108 浏览

apache-spark - SnappyData 作业的依赖项和包含项

我应该添加什么到我的 SBT 并包含在我的 Scala 类头中以构建一个 SnappyJob 以通过 snappy-job.sh 提交使用?

在尝试与其他基于 Spark 的库结合构建作业之前,我正在尝试以 SnappyData 作业的形式进行一些基本的“Hello World”工作。

我一开始就被困住了,试图构建一个程序的外壳,如下所述:

https://snappydatainc.github.io/snappydata/programming_guide/snappydata_jobs/

我输入了以下内容:

在页面下方,它说“对于编写作业,用户需要将 snappydata-cluster_2.11:1.0.0 包含到他们的项目依赖项中。” 我的 SBT 有:

我的类文件的标题有:

IntelliJ IDEA 在 IDE 中给我以下错误。

  1. 紧接在“snappytest”、“';' 或预期换行符”之后。
  2. 下一个词,“无法解析符号工具”。
  3. 下一个词,“无法解析符号 SnappySQLJob。”
  4. 在两个 def 语句中,“无法解析符号配置”。
  5. 如果我 Alt-Enter Config,我会看到很多关于要导入什么类的建议,但它们都不是 Snappy 或 Spark 相关的。
0 投票
2 回答
1494 浏览

pyspark - 从 pyspark DF 创建字典的最快方法

我正在使用带有 pyspark 的 Snappydata 来运行我的 sql 查询并将输出 DF 转换为字典以将其批量插入到 mongo 中。我已经经历了许多类似的问题来测试 spark DF 到 Dictionary 的转换。

目前我正在使用map(lambda row: row.asDict(), x.collect())这种方法将我的批量DF 转换为字典。10K 条记录需要 2-3 秒。

我在下面说明了我是如何实现我的想法的:

有没有更快的方法?

0 投票
1 回答
54 浏览

performance - 更好的性能和更低的内存使用

我正在开发一个应用程序,我将在 Snappydata 中存储复杂的 XML 以供将来分析。

为了更好的分析性能和更低的内存消耗,您有什么建议?存储在 xml、json 或对象中?

之前,感谢您的关注。

0 投票
1 回答
125 浏览

apache-spark - SnappyData 支持的 Spark 结构化流

我刚刚了解了 SnappyData(并观看了一些有关它的视频),它看起来很有趣,主要是当说性能可能比常规 spark 作业快很多倍时。

以下代码(片段)能否利用 SnappyData 功能来提高作业的性能并提供相同的行为?

0 投票
1 回答
85 浏览

snappydata - SnappyData 或 SnappySession:SignalHandler:收到显式操作系统信号 SIGPIPE

向集群发送数据时出现此错误:

2018-01-22 18:49:54 101 4859929 [SIGPIPE 处理程序] WARN snappystore - SignalHandler:收到显式 OS 信号 SIGPIPE java.lang.Throwable:在 com.pivotal.gemfirexd.internal.engine.SigThreadDumpHandler.handle (SigThreadDumpHandler. java:112) 在 sun.misc.Signal$1.run(Signal.java:212) 在 java.lang.Thread.run(Thread.java:745)