问题标签 [snappydata]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

132 问题

0 投票

1 回答

677 浏览

python-2.7 - from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy

即使在我尝试从以下代码导入 pyspark.sql.snappy 时重新安装 pyspark 和 snappydata 之后：

我得到错误：

请帮忙！

2017-10-31T10:09:20.713

0 投票

1 回答

184 浏览

python-2.7 - 如何在 SnappyData 中存储数组或 Blob？

我正在尝试创建一个包含两列的表，如下所示：

它创建成功，但是当我尝试将数据插入其中时，它不接受任何格式的数组。我尝试了以下查询：

请帮忙！

python-2.7 pyspark-sql snappydata

2017-11-01T10:13:27.867

0 投票

1 回答

101 浏览

apache-spark-sql - 将复杂数据类型（数组）从 csv 导入 snappydata

从我之前的问题中，我知道了插入数组的方式。

现在我想在表中插入大量数据。从 snappydata 的这个引用中，我能够将大量数据导入表中。但是当我尝试导入像 Array 这样的复杂数据类型时，它不支持。

谁能告诉我如何将数组从 CSV 文件插入到表中？

apache-spark-sql snappydata

2017-11-02T09:18:35.687

0 投票

1 回答

256 浏览

snappydata - 在 SnappyData 中为大型数据集创建表

我有 3300 万条记录要插入到 Snappydata 数据库中。我已经尝试创建一个列表而不设置其选项。问题是 spark 正在将整个数据库加载到 RAM 中。我想设置列选项，以便获得更快的统计计数。

根据参考资料，这是我们创建表的方式：

谁能建议我可以为诸如等选项设置的参数，这些参数BUCKETS可以COLUMN_MAX_DELTA_ROWS提高 OLAP 查询的性能。
我可以在创建表格后为表格设置这些选项吗？

例如：就像在 SQL 中一样，我们可以使用 ALTER 为如下表设置额外的选项：

ALTER TABLE t ENGINE = InnoDB;

编辑：我们正在执行每个 200 万的批量插入。虽然每批都以 DF 的形式从 json 插入到表中，但它像水一样消耗 RAM。我们的问题是 snappy 使用过多的 RAM。

snappydata

2017-11-08T04:39:50.383

0 投票

2 回答

82 浏览

pyspark - Snappydata 的数组大小不能超过 1000

任何人都可以帮助我并向我提供有关行/列表的行可以具有的数组长度和尺寸限制的信息。我不能向我的数组添加超过 1000 个元素。有没有办法增加它的大小？

pyspark apache-spark-sql snappydata

2017-11-21T13:15:38.573

0 投票

0 回答

108 浏览

apache-spark - SnappyData 作业的依赖项和包含项

我应该添加什么到我的 SBT 并包含在我的 Scala 类头中以构建一个 SnappyJob 以通过 snappy-job.sh 提交使用？

在尝试与其他基于 Spark 的库结合构建作业之前，我正在尝试以 SnappyData 作业的形式进行一些基本的“Hello World”工作。

我一开始就被困住了，试图构建一个程序的外壳，如下所述：

https://snappydatainc.github.io/snappydata/programming_guide/snappydata_jobs/

我输入了以下内容：

在页面下方，它说“对于编写作业，用户需要将 snappydata-cluster_2.11:1.0.0 包含到他们的项目依赖项中。” 我的 SBT 有：

我的类文件的标题有：

IntelliJ IDEA 在 IDE 中给我以下错误。

紧接在“snappytest”、“';' 或预期换行符”之后。
下一个词，“无法解析符号工具”。
下一个词，“无法解析符号 SnappySQLJob。”
在两个 def 语句中，“无法解析符号配置”。
如果我 Alt-Enter Config，我会看到很多关于要导入什么类的建议，但它们都不是 Snappy 或 Spark 相关的。

apache-spark intellij-idea snappydata

2017-11-21T20:45:48.837

0 投票

2 回答

1494 浏览

pyspark - 从 pyspark DF 创建字典的最快方法

我正在使用带有 pyspark 的 Snappydata 来运行我的 sql 查询并将输出 DF 转换为字典以将其批量插入到 mongo 中。我已经经历了许多类似的问题来测试 spark DF 到 Dictionary 的转换。

目前我正在使用map(lambda row: row.asDict(), x.collect())这种方法将我的批量DF 转换为字典。10K 条记录需要 2-3 秒。

我在下面说明了我是如何实现我的想法的：

有没有更快的方法？

pyspark spark-dataframe pyspark-sql snappydata

2017-12-07T10:47:41.393

0 投票

1 回答

54 浏览

performance - 更好的性能和更低的内存使用

我正在开发一个应用程序，我将在 Snappydata 中存储复杂的 XML 以供将来分析。

为了更好的分析性能和更低的内存消耗，您有什么建议？存储在 xml、json 或对象中？

之前，感谢您的关注。

performance memory snappydata

2018-01-07T00:07:25.367

0 投票

1 回答

125 浏览

apache-spark - SnappyData 支持的 Spark 结构化流

我刚刚了解了 SnappyData（并观看了一些有关它的视频），它看起来很有趣，主要是当说性能可能比常规 spark 作业快很多倍时。

以下代码（片段）能否利用 SnappyData 功能来提高作业的性能并提供相同的行为？

apache-spark spark-structured-streaming snappydata

2018-01-16T21:22:16.723

0 投票

1 回答

85 浏览

snappydata - SnappyData 或 SnappySession：SignalHandler：收到显式操作系统信号 SIGPIPE

向集群发送数据时出现此错误：

2018-01-22 18:49:54 101 4859929 [SIGPIPE 处理程序] WARN snappystore - SignalHandler：收到显式 OS 信号 SIGPIPE java.lang.Throwable：在 com.pivotal.gemfirexd.internal.engine.SigThreadDumpHandler.handle (SigThreadDumpHandler. java:112) 在 sun.misc.Signal$1.run(Signal.java:212) 在 java.lang.Thread.run(Thread.java:745)

snappydata

2018-01-23T06:52:54.757

1 2 3 4 5 6 7 8 9 10

问题标签 [snappydata]

Reference