performance - 更好的性能和更低的内存使用

Question

我正在开发一个应用程序，我将在 Snappydata 中存储复杂的 XML 以供将来分析。

为了更好的分析性能和更低的内存消耗，您有什么建议？存储在 xml、json 或对象中？

之前，感谢您的关注。

score 1 · Accepted Answer

从您的 XML 源中获取 DataFrame 并保存到 SnappyData 中的行或列表中。

如果 SQL 是您的首选，这样的事情......（请参阅 DF API 文档）

snappy> CREATE external TABLE myXMLTable USING com.databricks.spark.xml
   OPTIONS (path "pathToYourXML.xml", rowTag "Refer to docs link below");

snappy> create table myInMemoryTable using column as (select * from myXMLTable);

https://github.com/databricks/spark-xml

performance - 更好的性能和更低的内存使用

1 回答 1

Related

Reference