问题标签 [checkpointing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
spark-streaming - Spark 节点故障检查点
我已经开发了一个带有检查点和容错功能的 Spark Streaming 应用程序(它也有内部状态)。当我退出我的应用程序并重新运行它时,它正在工作......所以每件事(状态......)都会加载出色地,
我想知道为什么在集群未命中的情况下,它应该工作还是不工作?因为我猜 Spark 将检查点保存为指向内存位置的指针......
spark-streaming - 火花流中状态运算符的检查点
我正在开发一个流应用程序,它在内部使用 mapwithstate 函数......
我需要手动设置我的 checkpointnd 数据的检查点间隔..
这是我的示例代码..
tensorflow - tensorflow:从检查点恢复以继续训练
在这种情况下,我想继续从检查点训练我的模型。我使用 cifar-10 示例并在 cifar-10_train.py 中进行了一些更改,如下所示,它们几乎相同,除了我想从检查点恢复:我用 md 取代 cifar-10。
当我运行代码时,出现如下错误:
当我取消注释第 107 行“sess.run(init)”时,它运行完美,但是一个初始化模型,只是一个来自 sctrach 的新模型。我想从检查点恢复变量,并继续我的训练。我想恢复。
apache-kafka - 读取 Spark Streaming 检查点数据
我正在编写一个从 Kafka 读取的 Spark Streaming 应用程序。为了有一个确切的语义,我想使用直接的 Kafka 流并使用 Spark Streaming 本机检查点。
问题是检查点使维护代码几乎不可能:如果您更改某些内容,就会丢失检查点数据,因此您几乎不得不从 Kafka 读取一些消息。我想避免它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还无法做到这一点。有人可以告诉我如何通过检查点文件夹读取有关上次处理的 Kafka 偏移量的信息吗?
谢谢你,马可
scala - 火花流中是否需要检查点
我注意到火花流示例也有用于检查点的代码。我的问题是检查点有多重要。如果它具有容错性,那么此类流应用程序中多久会发生一次故障?
spark-streaming - 无法从检查点目录重新加载
当我尝试从检查点目录重新加载我的 spark 流应用程序时,出现以下异常:
我想知道是否有任何方法可以覆盖此异常,例如从以前的检查点数据重新加载?
apache-spark - 为 Apache Spark Streaming 检查点目录配置 AWS S3 对象过期策略
是否有人对托管 Spark 流检查点目录的 S3 存储桶的过期策略有经验?我已经使用 Spark Streaming + kafka 设置了一个应用程序,并且我想使用一个设置了 24 小时过期策略的 S3 存储桶来保存检查点目录。但是,我想确认这不会干扰检查点功能。那么,以前有人这样做过吗?
apache-spark - 从检查点启动火花流时堆栈溢出
从检查点重新启动火花流时,我得到了这个异常。因为它与我生成的任何代码都不相关,所以我不知道是什么导致了这个问题。
任何想法?
编辑:我已经从 1.6.0 升级到 spark 2.0.2。我仍然有这个错误
r - 在 SparkR 中检查点数据帧
我正在使用 R/spark 遍历许多 csv 数据文件。每个文件的大约 1% 必须保留(根据某些标准过滤)并与下一个数据文件合并(我使用过union
/ rbind
)。但是,随着循环的运行,数据的谱系会变得越来越长,因为 spark 会记住所有以前的数据集和filter()
-s。
有没有办法在 spark R API 中进行检查点?我了解到 spark 2.1 具有 DataFrames 的检查点,但这似乎不能从 R 中获得。
tensorflow - TensorFlow train.Supervisor - 训练停止时保存检查点?
在 TensorFlow 1.0 中,tf.train.Supervisor
每隔save_model_secs
. 有没有办法在训练结束时保存检查点,而不是在训练期间定期保存?