问题标签 [snappydata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - from pyspark.sql.snappy import SnappyContext - ImportError: No module named snappy
即使在我尝试从以下代码导入 pyspark.sql.snappy 时重新安装 pyspark 和 snappydata 之后:
我得到错误:
请帮忙!
python-2.7 - 如何在 SnappyData 中存储数组或 Blob?
我正在尝试创建一个包含两列的表,如下所示:
它创建成功,但是当我尝试将数据插入其中时,它不接受任何格式的数组。我尝试了以下查询:
请帮忙!
snappydata - 在 SnappyData 中为大型数据集创建表
我有 3300 万条记录要插入到 Snappydata 数据库中。我已经尝试创建一个列表而不设置其选项。问题是 spark 正在将整个数据库加载到 RAM 中。我想设置列选项,以便获得更快的统计计数。
根据参考资料,这是我们创建表的方式:
谁能建议我可以为诸如等选项设置的参数,这些参数
BUCKETS
可以COLUMN_MAX_DELTA_ROWS
提高 OLAP 查询的性能。我可以在创建表格后为表格设置这些选项吗?
例如:就像在 SQL 中一样,我们可以使用 ALTER 为如下表设置额外的选项:
ALTER TABLE t ENGINE = InnoDB;
编辑:我们正在执行每个 200 万的批量插入。虽然每批都以 DF 的形式从 json 插入到表中,但它像水一样消耗 RAM。我们的问题是 snappy 使用过多的 RAM。
pyspark - Snappydata 的数组大小不能超过 1000
任何人都可以帮助我并向我提供有关行/列表的行可以具有的数组长度和尺寸限制的信息。我不能向我的数组添加超过 1000 个元素。有没有办法增加它的大小?
apache-spark - SnappyData 作业的依赖项和包含项
我应该添加什么到我的 SBT 并包含在我的 Scala 类头中以构建一个 SnappyJob 以通过 snappy-job.sh 提交使用?
在尝试与其他基于 Spark 的库结合构建作业之前,我正在尝试以 SnappyData 作业的形式进行一些基本的“Hello World”工作。
我一开始就被困住了,试图构建一个程序的外壳,如下所述:
https://snappydatainc.github.io/snappydata/programming_guide/snappydata_jobs/
我输入了以下内容:
在页面下方,它说“对于编写作业,用户需要将 snappydata-cluster_2.11:1.0.0 包含到他们的项目依赖项中。” 我的 SBT 有:
我的类文件的标题有:
IntelliJ IDEA 在 IDE 中给我以下错误。
- 紧接在“snappytest”、“';' 或预期换行符”之后。
- 下一个词,“无法解析符号工具”。
- 下一个词,“无法解析符号 SnappySQLJob。”
- 在两个 def 语句中,“无法解析符号配置”。
- 如果我 Alt-Enter Config,我会看到很多关于要导入什么类的建议,但它们都不是 Snappy 或 Spark 相关的。
pyspark - 从 pyspark DF 创建字典的最快方法
我正在使用带有 pyspark 的 Snappydata 来运行我的 sql 查询并将输出 DF 转换为字典以将其批量插入到 mongo 中。我已经经历了许多类似的问题来测试 spark DF 到 Dictionary 的转换。
目前我正在使用map(lambda row: row.asDict(), x.collect())
这种方法将我的批量DF 转换为字典。10K 条记录需要 2-3 秒。
我在下面说明了我是如何实现我的想法的:
有没有更快的方法?
performance - 更好的性能和更低的内存使用
我正在开发一个应用程序,我将在 Snappydata 中存储复杂的 XML 以供将来分析。
为了更好的分析性能和更低的内存消耗,您有什么建议?存储在 xml、json 或对象中?
之前,感谢您的关注。
apache-spark - SnappyData 支持的 Spark 结构化流
我刚刚了解了 SnappyData(并观看了一些有关它的视频),它看起来很有趣,主要是当说性能可能比常规 spark 作业快很多倍时。
以下代码(片段)能否利用 SnappyData 功能来提高作业的性能并提供相同的行为?
snappydata - SnappyData 或 SnappySession:SignalHandler:收到显式操作系统信号 SIGPIPE
向集群发送数据时出现此错误:
2018-01-22 18:49:54 101 4859929 [SIGPIPE 处理程序] WARN snappystore - SignalHandler:收到显式 OS 信号 SIGPIPE java.lang.Throwable:在 com.pivotal.gemfirexd.internal.engine.SigThreadDumpHandler.handle (SigThreadDumpHandler. java:112) 在 sun.misc.Signal$1.run(Signal.java:212) 在 java.lang.Thread.run(Thread.java:745)